in

「GPT-3.5がUSMLEスタイルの医療計算と臨床シナリオに挑戦!— GPT-4によるプロンプトエンジニアリングの効果を徹底評価」

Evaluating prompt engineering on GPT-3.5’s performance in USMLE-style medical calculations and clinical scenarios generated by GPT-4

チャットGPTのUSMLE試験における評価方法

昨今、人工知能(AI)の進化が目覚ましく、その応用範囲は医療分野にも広がっています。特に、OpenAIが開発したChatGPT(GPT-3.5-turbo)やその後継モデルであるGPT-4は、その能力を評価するための研究が数多く行われています。本記事では、これらモデルを使用して米国医師国家試験(USMLE)の問題に対するパフォーマンスを検証した研究について詳しく解説します。

研究デザイン

本研究では、ChatGPT(GPT-3.5-turbo)を対象に三つのプロンプト戦略—直接質問、思考の連鎖(CoT)、及び修正されたCoT—を用いて評価しました。分析には95問のUSMLE Step 1の選択式問題と、GPT-4で生成した二つの質問セット(医療計算問題と臨床ケース問題)が含まれます。この実験のアーキテクチャとワークフローについては図1に詳細が示されています。解析は2023年7月に行われました。

質問生成

まず、GPT-4を使って1000問のUSMLEスタイルの質問を作成しました。これらは計算ベース500問と非計算ベース500問に分かれています。非計算セットには診断、治療計画、検査結果解釈などが含まれ、一方で計算セットには薬剤投与量計算や臨床スコア計算などが含まれます。また、それぞれの質問には難易度(簡単、中級、高難度)と19種類の専門分野も設定されました。

質問回答—プロンプトエンジニアリング

次に、ChatGPT(GPT-3.5-turbo)に対して三つの異なるプロンプト戦略を使用しました:

  1. 直接プロンプト:シンプルに「質問に答えてください」と指示。
  2. 思考の連鎖(CoT):段階的な推論過程によって答えを導くよう指示。
  3. 修正されたCoT:「問題を注意深く読み、それぞれのステップで正確性を確認しながら最終的な答えまで理由付けする」よう指示。

すべてのプロンプトはOpenAI API経由で送信されました。各プロンプト戦略による回答精度も比較されました。

人間による検証

さらに、公平性確保と精度向上のため、50問ずつ二人の救急科担当医師が独立して評価しました。それぞれ質問内容や難易度などについて盲検レビューし、一致率も測定されました。この評価にはCohen’s Kappa係数も使用されました。

評価結果

主な評価指標はChatGPTモデルによる回答精度です。また、この他にも各質問タイプや難易度レベル、専門分野ごとの解析も行いました。その結果については表1で特徴比較としてまとめられています。

統計解析

統計解析にはPythonバージョン3.9.16が使用され、人間レビューア間一致率測定にはCohen’s Kappa係数が適用されました。また、プロンプトタイプと回答精度との関係性を見るためChi-squareテストも実施し、有意水準p<0.05が採用されました。

このような詳細な分析から得られる知見は、今後さらなるAI技術開発や医療教育への応用可能性を広げる一助となるでしょう。



Source link

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

GIPHY App Key not set. Please check settings

生成ai

AIがあなたの旅をさらに快適にする方法を紹介【超旅ラジオ】

esta es la mejor temporada de Bridgerton, según ChatGPT

「AIが選ぶ!『ブリジャートン』の最高シーズンはこれだ—ChatGPTの見解」