「AIの進化：GPT-4が人間を超える？理論心テストで驚異的な成果を見せる！」

人間の「心の理論」に迫るAIモデル：GPT-4の能力と限界

さまざまな分野の研究者たちは、他者の精神状態を理解し予測する能力である「心の理論」に長年にわたり魅了されてきました。この能力は、間接的な要求を解釈したり、欺瞞を見抜いたりするなど、多くの社会的相互作用を支えています。

最近、「Nature Human Behaviour」に掲載された研究によると、特にOpenAIのGPT-4など高度な人工知能（AI）モデルが、この「心の理論」をテストするために設計されたタスクで顕著な能力を示すことが明らかになりました。GPT-4は間接的な要求や誤信念、錯誤に関する理解では人間と同等かそれ以上の性能を発揮しましたが、失言検出には苦戦しました。

大規模言語モデル（LLMs）はディープラーニング技術を使用して構築され、大量のテキストデータで訓練されています。これらは次に来る単語を予測することで機能し、入力に基づいて一貫性があり文脈的にも適切なテキストを生成します。訓練プロセスでは多様な言語パターンに触れることで文法や世界についての事実、推論や推察なども学習します。LLMsは翻訳や要約、会話などさまざまなタスクで驚異的な能力を示しており、多くの応用分野で強力なツールとなっています。

しかし、その印象深い性能にもかかわらず、LLMsには限界があります。人間の言語を模倣する能力があるため、それが本当に生成する内容を理解しているのか、それとも訓練中に学んだパターンを単に再現しているだけなのかという疑問が生じます。この区別は特に文脈や人間心理への深い理解が必要とされる「心の理論」関連タスクでは重要です。

「心の理論は、人々周囲との社会環境で効果的に行動するために重要な側面です」と研究著者でありハンブルク・エッペンドルフ大学医療センター所属フンボルト研究フェローでもあるジェームズ・ストラチャン氏は説明しています。「この能力が人間同士の日常交流でどれほど重要であるか考えると、人間とAIとの円滑な相互作用を目指すAI技術開発でも重要視されています。」

研究方法

この研究では、大規模言語モデル（LLMs）の「心の理論」能力を厳密に評価するため、さまざまなタスクを含むスタディデザインが採用されました。主としてGPT-4、その前身であるGPT-3.5、およびLLaMA2-70Bという別種モデルと人間参加者との比較が行われました。

選ばれた心理学的テストバッテリーには、人間向け心の理論評価によく使われる偽信念課題や皮肉理解、失言検出、ヒント課題、不思議なお話などが含まれていました。オンラインプラットフォームProlificから募集された1,907名もの英語ネイティブスピーカー（18〜70歳）が参加し、それぞれ特定数ずつ各テストへ割り当てられました。また各AIモデルも15回独立セッションごとに試験されました。