最近、Appleの研究者であるMehrdad Farajtabar氏らが発表した論文が、大型言語モデル(LLM)の推理能力に対する鋭い疑問を投げかけています。Farajtabar氏は、LLMが行う「推理」は実際には複雑なパターンマッチングに過ぎず、本当の意味での推論力は備わっていないと主張しています。
この研究では、LlamaやPhi、Gemma、Mistralなどのオープンソースモデル、およびGPT-4oやo1シリーズといったクローズドソースモデルを対象に調査が行われました。OpenAIによってGSM8Kがリリースされてから3年の間に、多くのモデルが性能を大幅に向上させてきました。しかし、Farajtabar氏は、それでもまだLLMの本当の推論力が向上しているとは言えないとしています。
彼らは数学的推論能力をテストするため、「GSM-Symbolic」と呼ばれる新しいツールを開発しました。このツールはGSM8Kテストセットからシンボルテンプレートを作成し、多数のインスタンスを生成して制御可能な実験をデザインすることができます。この手法で50種類以上のユニークなGSM-Symbolicセットが生成され、それぞれ異なる値と名前で構成されています。
実験結果から明らかになったことは以下です。まず第一に、現在のGSM8Kで測定される正確性は信頼できないということです。同じ問題でもモデルによって精度に大きな差異があります。また、LLMは固有名詞や数字の変更に非常に敏感であり、本質的には数学的概念を理解できていないことも示唆されています。
さらに問題難易度が増すにつれて(例:GSM-M1→Symbolic→P1→P2)、モデルの性能低下と分散増加という現象も観察されました。これは、より高難度な問題では信頼性が低下することを意味します。また、新たに導入された「GSM-NoOp」では性能が劇的に低下しました。このNoOpでは、一見関係ありそうだが推論全体には影響しない句を追加しただけにもかかわらず、多くのモデルで顕著な性能低下が見られました。
結論として、この研究ではLlamaやPhi、Gemmaといったオープンソースおよび最新のクローズドソースモデルから、「どんな形式でも推論」の証拠は見つかりませんでした。それどころか結果は単なる複雑なパターンマッチングとして説明する方が適切だと言います。データや計算量さらにはトレーニングデータ自体を改善しても、「より良いパターンマッチャー」が得られるだけで、「より良い推理者」になるわけではない、と締めくくっています。
Source link
GIPHY App Key not set. Please check settings