in

「AI推理の幻想崩壊!?アップル最新研究が明かすLLMの真実:ただのパターンマッチングだった!」

AI 推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理 - 华尔街见闻


最近、Appleの研究者であるMehrdad Farajtabar氏らが発表した論文が、大型言語モデル(LLM)の推理能力に対する鋭い疑問を投げかけています。Farajtabar氏は、LLMが行う「推理」は実際には複雑なパターンマッチングに過ぎず、本当の意味での推論力は備わっていないと主張しています。

この研究では、LlamaやPhi、Gemma、Mistralなどのオープンソースモデル、およびGPT-4oやo1シリーズといったクローズドソースモデルを対象に調査が行われました。OpenAIによってGSM8Kがリリースされてから3年の間に、多くのモデルが性能を大幅に向上させてきました。しかし、Farajtabar氏は、それでもまだLLMの本当の推論力が向上しているとは言えないとしています。

彼らは数学的推論能力をテストするため、「GSM-Symbolic」と呼ばれる新しいツールを開発しました。このツールはGSM8Kテストセットからシンボルテンプレートを作成し、多数のインスタンスを生成して制御可能な実験をデザインすることができます。この手法で50種類以上のユニークなGSM-Symbolicセットが生成され、それぞれ異なる値と名前で構成されています。

実験結果から明らかになったことは以下です。まず第一に、現在のGSM8Kで測定される正確性は信頼できないということです。同じ問題でもモデルによって精度に大きな差異があります。また、LLMは固有名詞や数字の変更に非常に敏感であり、本質的には数学的概念を理解できていないことも示唆されています。

さらに問題難易度が増すにつれて(例:GSM-M1→Symbolic→P1→P2)、モデルの性能低下と分散増加という現象も観察されました。これは、より高難度な問題では信頼性が低下することを意味します。また、新たに導入された「GSM-NoOp」では性能が劇的に低下しました。このNoOpでは、一見関係ありそうだが推論全体には影響しない句を追加しただけにもかかわらず、多くのモデルで顕著な性能低下が見られました。

結論として、この研究ではLlamaやPhi、Gemmaといったオープンソースおよび最新のクローズドソースモデルから、「どんな形式でも推論」の証拠は見つかりませんでした。それどころか結果は単なる複雑なパターンマッチングとして説明する方が適切だと言います。データや計算量さらにはトレーニングデータ自体を改善しても、「より良いパターンマッチャー」が得られるだけで、「より良い推理者」になるわけではない、と締めくくっています。



Source link

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

GIPHY App Key not set. Please check settings

「OpenAI o1」登場で生成AIは「真のエージェントに近づいた」、THE GUILD代表・深津貴之氏が語る未来

「OpenAI o1が生成AIの新時代を切り開く!THE GUILD代表・深津貴之氏が語る、真のエージェントへの道」

llm

「LLM開発の舞台裏:Stability AIの秋葉さんが語る、難易度と魅力」