OpenAIの新たな研究:AIモデルは事実に基づく質問への回答で失敗が多い
OpenAIが自社開発したSimpleQAベンチマークを用いた最新の研究によると、最も進んだAI言語モデルでさえ、事実に基づく質問に答える際には成功よりも失敗することが多いことが明らかになりました。
このSimpleQAテストは科学、政治、芸術などにわたる4,326の質問を含み、それぞれの質問には明確な正解があります。回答の正確性は二人の独立したレビュワーによって検証されました。
OpenAIの最高性能モデル「o1-preview」は42.7%という成功率を記録しました。続いてGPT-4oは38.2%、小型版GPT-4o-miniはわずか8.6%という低い精度でした。対照的にAnthropic社のClaudeモデルでは、最上位モデル「Claude-3.5-sonnet」が28.9%という結果であり、さらに小型モデルでは不確かな場合には回答を控える傾向が見られました。
この研究から得られる重要なポイントとして、ユーザーはAIモデルを情報処理ツールと捉え、自身の知識にだけ依存するべきではありません。信頼できるデータとともに使用することで最良の結果を得ることができます。
しかし、この結果は、多くの人々、とりわけ学生たちがこれらのシステムを独立した研究や学習ツールとして使用している現状に警鐘を鳴らしています。データからは、AIモデルが独立した事実確認や検証には十分な信頼性を持たないことが示されています。
さらに、この研究ではAI言語モデルが自身の能力を過大評価していることも判明しました。質問への回答時に自信度を評価させると、常に自己評価が実際より高いスコアとなっています。このため、短い事実ベースの回答で優れたパフォーマンスが長文で複雑な回答にも通じるかどうかという点については未解決の研究課題として残されています。
OpenAIはこのSimpleQAベンチマークをGitHub上で公開し、一層信頼性の高い言語モデル開発への貢献を呼び掛けています。このような取り組みから将来的にはより精度と信頼性が高まったAI技術への期待が寄せられています。
Source link
GIPHY App Key not set. Please check settings