「医師がChatGPTを診療の判断に使うべきでない理由とは？最新研究が示すAIの限界」

医師の意思決定を支援するAI、緊急医療ではまだ不十分

最近の研究によれば、ChatGPTは医師の意思決定を支援するにはまだ時間がかかることが示されました。特に、緊急部での抗生物質の必要性を予測するタスクにおいて、GPT-4-turboは以前のバージョンよりも優れているものの、研修医には及びませんでした。

AI技術は精神医学や皮膚科から眼科まで、さまざまな医療分野で研究されています。診断プロセスを迅速化し、業務効率を上げる助けにはなるものの、人間と置き換わることはありません。特に緊急部では、その傾向が顕著です。

カリフォルニア大学サンフランシスコ校のBakar計算健康科学研究所に所属するクリストファー・Y.K.・ウィリアムズ博士は、「これらのモデルを盲信しないようにという重要なメッセージです」と述べています。ChatGPTは医学試験への回答や臨床ノート作成を支援できますが、多角的な考慮が必要な状況にはまだ対応できません。

この研究では、大規模言語モデル（LLM）が緊急部での入院判断や放射線検査依頼、抗生物質処方といった臨床的提案を行えるかどうか評価しました。その結果、GPT-3.5-turboとGPT-4-turboはいずれも医師と比較して精度が低いことが判明しました。それらは慎重すぎる傾向にあり、高い感度ですが特異性に欠けます。

さらに実際的な設定で評価したところでも、研修医による提案のほうが一貫して優れていました。特に抗生物質処方についてのみGPT-4-turboがわずかに研修医を上回りましたが、それ以外では劣っていました。この結果からも明らかなように、AIによる過剰処方は患者や医療システム全体に負担となり得ます。

ウィリアムズ博士は、このような傾向はインターネット上で訓練されたモデルだからこそ起こり得ると指摘します。「これらのモデルは『専門家へ相談してください』と言うよう調整されています。しかし、それは必ずしも適切とは限りません」と述べています。この現状からも分かるように、AI技術開発にはさらなる進展が求められます。

Source link