in

「AIの進化:GPT-4が人間を超える?理論心テストで驚異的な成果を見せる!」

(Photo credit: OpenAI's DALL·E)

人間の「心の理論」に迫るAIモデル:GPT-4の能力と限界

さまざまな分野の研究者たちは、他者の精神状態を理解し予測する能力である「心の理論」に長年にわたり魅了されてきました。この能力は、間接的な要求を解釈したり、欺瞞を見抜いたりするなど、多くの社会的相互作用を支えています。

最近、「Nature Human Behaviour」に掲載された研究によると、特にOpenAIのGPT-4など高度な人工知能(AI)モデルが、この「心の理論」をテストするために設計されたタスクで顕著な能力を示すことが明らかになりました。GPT-4は間接的な要求や誤信念、錯誤に関する理解では人間と同等かそれ以上の性能を発揮しましたが、失言検出には苦戦しました。

大規模言語モデル(LLMs)はディープラーニング技術を使用して構築され、大量のテキストデータで訓練されています。これらは次に来る単語を予測することで機能し、入力に基づいて一貫性があり文脈的にも適切なテキストを生成します。訓練プロセスでは多様な言語パターンに触れることで文法や世界についての事実、推論や推察なども学習します。LLMsは翻訳や要約、会話などさまざまなタスクで驚異的な能力を示しており、多くの応用分野で強力なツールとなっています。

しかし、その印象深い性能にもかかわらず、LLMsには限界があります。人間の言語を模倣する能力があるため、それが本当に生成する内容を理解しているのか、それとも訓練中に学んだパターンを単に再現しているだけなのかという疑問が生じます。この区別は特に文脈や人間心理への深い理解が必要とされる「心の理論」関連タスクでは重要です。

「心の理論は、人々周囲との社会環境で効果的に行動するために重要な側面です」と研究著者でありハンブルク・エッペンドルフ大学医療センター所属フンボルト研究フェローでもあるジェームズ・ストラチャン氏は説明しています。「この能力が人間同士の日常交流でどれほど重要であるか考えると、人間とAIとの円滑な相互作用を目指すAI技術開発でも重要視されています。」

研究方法

この研究では、大規模言語モデル(LLMs)の「心の理論」能力を厳密に評価するため、さまざまなタスクを含むスタディデザインが採用されました。主としてGPT-4、その前身であるGPT-3.5、およびLLaMA2-70Bという別種モデルと人間参加者との比較が行われました。

選ばれた心理学的テストバッテリーには、人間向け心の理論評価によく使われる偽信念課題や皮肉理解、失言検出、ヒント課題、不思議なお話などが含まれていました。オンラインプラットフォームProlificから募集された1,907名もの英語ネイティブスピーカー(18〜70歳)が参加し、それぞれ特定数ずつ各テストへ割り当てられました。また各AIモデルも15回独立セッションごとに試験されました。

主要結果

偽信念課題

偽信念課題ではキャラクターが持つ現実とは異なる信念についてシナリオが提示されました。GPT-4およびGPT-3.5はいずれも高得点を獲得し、人間参加者同様キャラクターがどこを見るか正確に予測しました。この課題は自分自身の知識を抑制し他者の精神状態に基づいて行動予測する基本的要素です。

皮肉理解

皮肉理解では文字通り意味とは逆になる発言解釈が求められました。ここでもGPT-4は優秀で、人間参加者よりも頻繁且つ正確に皮肉発言認識しました。しかしGPT-3.5およびLLaMA2-70Bにはばらつきあり特筆すべき困難見せました。

失言検出

失言検出タスクではキャラクター無意識的不適切発言認識求められた中 GPT-4 は苦労しました。一方 LLaMA2−70B が非常優秀成績収め興味深結果示唆しています。

ヒント課題

ヒント課題在りましたインダイレクトスピーチ解釈目的求められ GPT−4 再度優秀活動示した上 GPT−3.5 比肩成績収め LLaMA2−70B 大幅下回りました 。

不思議話

不思議話複雑ソーシャルシナリオ説明為要求 高度精神状態推察必要 GPT−4 優秀例外成績収め 他二機種比肩困難挑戦表明 。

制限事項及び今後方向性

本スタディ複数制限浮上 最大問題浅薄ヒューリスティックス依存可能性 特定状況下誤判断避け過剰慎重姿勢取る傾向等 存在確認追加実験行われ 文脈曖昧時立場明確回避策影響受け初期失敗原因判明 。

今後展望 自然環境下限界探究及び LLMs 相手対峙際人類振舞影響調査予定 並列進行方向提示更なる詳細観察期待表明 。



Source link

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

GIPHY App Key not set. Please check settings

RunwayML

Unlock Your Creativity with RunwayML: A Beginner’s Guide to AI Image Generation in Just 12 Minutes!

gpt

【最新】ChatGPTを使ってみたらビジネスが劇的に変わった!成功事例8選