「衝撃の結果！最先端AIが数学ベンチマークで2%未満の解答率、AGI実現への険しい道のり」

人工知能（AI）の急速な進化は、画像生成や自然言語処理の分野で人間に近い成果を上げていますが、新たに登場した指標によってその限界が明確になりました。AI研究機関Epoch AIが開発した高度な数学ベンチマークテスト「FrontierMath」で、最先端AIモデルの正解率が2%未満という結果が示されたのです。この事実は、AIの数理的推論能力には本質的な課題があり、真の人工知能実現への道は予想以上に遠いことを示唆しています。

従来の数学ベンチマークとFrontierMathの違い

GPT-4oやClaude 3.5、Gemini 1.5 Proなどの最新AIモデルは、GSM-8KやMATHといった既存の数学ベンチマークで90%以上のスコアを誇っています。しかしこれらは、テストセットに似た問題で学習した結果として捉えられています。一方、「FrontierMath」は未公開かつ研究レベルの新規問題群から構成されており、このデータ汚染を回避し、本当にAIの能力を測ることに重点を置いています。

AIモデルへの挑戦

フィールズ賞受賞者であるTimothy Gowers氏やTerence Tao氏も、「FrontierMath」の問題について非常に難しいと評価しており、このような問題群は国際数学オリンピック（IMO）とは異なる難易度を持つと言及しています。これらは単なるパターン認識では解けない創造的な思考を要求するため、現代AIモデルには大きな挑戦となります。

未来への課題

「FrontierMath」が露わにした現代AIの限界は重要です。AI研究者Matthew Barnett氏は、「このベンチマークが完全に解ける時、それこそAGI（人工汎用知能）実現の日」と述べています。また元OpenAI開発者Andrej Karpathy氏も、この結果がモラベックのパラドックスを新たに証明すると指摘しており、人間には容易でも機械には困難な課題が存在することが再確認されました。

今後もEpoch AIは定期的な評価とベンチマーク拡張を計画しており、この評価基準によって人工知能開発への客観的理解と方向性への重要な示唆が得られることになるでしょう。

Source link