in

「AI対決:Claude3とGPT-4が医療知識の圧力テストで激突!」

New Study Puts Claude3 and GPT-4 up Against a Medical Knowledge Pressure Test

Kahunの研究:GPT-4よりも優れたClaude3、それでも医療専門家には及ばず

Kahunは、最先端の臨床AIエンジンを提供する企業で、最近の研究結果を発表しました。この研究では、OpenAIのGPT-4とAnthropicのClaude3-Opusという二つの大規模言語モデル(LLMs)の医学的精度を比較し、人間の医療専門家と対比させました。その結果、Claude3がGPT-4をわずかに上回る精度を示しましたが、どちらも人間の医療専門家や客観的な医学知識には及びませんでした。

この研究は、Kahun独自の知識グラフから得られた15,000以上の査読済み記事データに基づいています。これにより生成された105,000件以上の証拠ベースの医学QA(質問と回答)は、数値的または意味的なカテゴリに分類され、多岐にわたる健康分野を網羅しています。

主要な発見

  1. 性能差:
    Claude3とGPT-4はともに意味的QAで68%以上の正答率を示したが、数値的QAではそれぞれ63.7%と56.7%にとどまりました。特に数値的な精度でClaude3が優れていました。

  2. 応答バリエーション:
    同じ質問でも各モデルから異なる出力が生成されることがあり、そのため一貫性が欠けていることが示唆されました。

  3. 人間との比較:
    六人の医療専門家が100件の数値的QAに回答した結果、82.3%という高い正答率を記録し、Claude3(64.3%)やGPT-4(55.8%)を大きく上回りました。

  4. 「知らない」選択肢:
    モデルには「わからない」という選択肢も含まれており、この回答率にも差異がありました。しかしながら、この機能によって信頼性や正確性が向上するわけではありませんでした。

結論

今回の研究から明らかになったことは、現在利用可能なLLMsはまだ日常診療で医師が直面するような複雑な医学問題に対して十分な情報アシスタントとして機能しない点です。Kahun社長兼共同創設者であるMichal Tzuchman Katz博士は、「一般用途LLMはまだ医療専門家には遠く及びません。しかし、それでも適切なデータソースを統合することで改善可能です」とコメントしています。

詳細についてはこちらをご覧ください。また最新情報はinsideAI Newsニュースレターで入手できます。



Source link

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

GIPHY App Key not set. Please check settings

llama3

Unleashing the Power of LLaMA 3: A Game-Changer in AI Technology

ChatGPTs nye avanserte samtalemodus er i ferd med å bli rullet ut. Den skal være langt mer naturlig og menneskeaktig enn modusen den erstatter.

OpenAI Avduker Ny Stemmemodus i ChatGPT: Revolusjonerer Samtaler Med AI!