Kahunの研究:GPT-4よりも優れたClaude3、それでも医療専門家には及ばず
Kahunは、最先端の臨床AIエンジンを提供する企業で、最近の研究結果を発表しました。この研究では、OpenAIのGPT-4とAnthropicのClaude3-Opusという二つの大規模言語モデル(LLMs)の医学的精度を比較し、人間の医療専門家と対比させました。その結果、Claude3がGPT-4をわずかに上回る精度を示しましたが、どちらも人間の医療専門家や客観的な医学知識には及びませんでした。
この研究は、Kahun独自の知識グラフから得られた15,000以上の査読済み記事データに基づいています。これにより生成された105,000件以上の証拠ベースの医学QA(質問と回答)は、数値的または意味的なカテゴリに分類され、多岐にわたる健康分野を網羅しています。
主要な発見
-
性能差:
Claude3とGPT-4はともに意味的QAで68%以上の正答率を示したが、数値的QAではそれぞれ63.7%と56.7%にとどまりました。特に数値的な精度でClaude3が優れていました。 -
応答バリエーション:
同じ質問でも各モデルから異なる出力が生成されることがあり、そのため一貫性が欠けていることが示唆されました。 -
人間との比較:
六人の医療専門家が100件の数値的QAに回答した結果、82.3%という高い正答率を記録し、Claude3(64.3%)やGPT-4(55.8%)を大きく上回りました。 - 「知らない」選択肢:
モデルには「わからない」という選択肢も含まれており、この回答率にも差異がありました。しかしながら、この機能によって信頼性や正確性が向上するわけではありませんでした。
結論
今回の研究から明らかになったことは、現在利用可能なLLMsはまだ日常診療で医師が直面するような複雑な医学問題に対して十分な情報アシスタントとして機能しない点です。Kahun社長兼共同創設者であるMichal Tzuchman Katz博士は、「一般用途LLMはまだ医療専門家には遠く及びません。しかし、それでも適切なデータソースを統合することで改善可能です」とコメントしています。
詳細についてはこちらをご覧ください。また最新情報はinsideAI Newsニュースレターで入手できます。
Source link
GIPHY App Key not set. Please check settings