「医療サマリーでのAIの誤情報発信率はどれほど？最新研究が明らかにする驚きの実態」

マサチューセッツ大学アマースト校の研究者たちは今週、医療要約を生成する際に大規模言語モデル（LLM）がどれほど頻繁に「幻覚」を発生させるかについて探る論文を発表しました。

ここ数年、医療従事者は臨床疲労を軽減するためにLLMを利用して医療要約を生成していますが、この分野では依然としてAIモデルが誤情報や誤解を招く内容を出力する「幻覚」について懸念があります。

今回の研究では、研究チームはOpenAIのGPT-4oとMetaのLlama-3という最新のプロプライエタリおよびオープンソースのLLMから100件の医療要約を収集しました。研究チームは「ほぼすべての要約」で幻覚が見られたと述べています。

GPT-4oが生成した50件の要約には、327件の医療イベント不一致、114件の不正確な推論、3件の時系列不一致が確認されました。一方で、Llama-3が生成した要約は短くて包括的ではなく、271件の医療イベント不一致、53件の不正確な推論、および1件の時系列不一致が見つかりました。

最も頻繁に見られる幻覚は症状、診断、および薬剤指示に関連しており、このことは最先端言語モデルにとって医療分野の知識が依然として困難であることを示しています。

今日ではLLMは流暢で説得力ある文章を生成でき、「チューリングテスト」に合格することさえあります。しかしながら、これらAIモデルによって生成された医療記録要約が元となった記録に忠実でない場合、それは潜在的に危険なものとなり得ます。例えば、新型コロナウイルス感染症による鼻詰まりや喉痛と記載されている患者について、AIモデルが誤って喉感染症と判断すると、不適切な薬剤処方につながります。また、一部AIモデルは患者記録内に記載された薬物アレルギー情報を見落とす可能性もあり、その結果として重大なアレルギー反応を引き起こす薬剤が処方されるリスクもあります。

この研究結果から、ヘルスケア業界にはAI幻覚検出と分類用フレームワークの整備が求められています。このようなフレームワークによって業界リーダーたちが協力し合い、臨床文脈でAIへの信頼性向上に努めることが可能になるでしょう。

Source link