「Claude 3.5 Sonnet vs ChatGPT-4o & Gemini: Anthropicの最新AIが業界を揺るがす理由とは？」

Anthropic、AI界の有力候補、最新イノベーション「Claude 3.5 Sonnet」を発表

Anthropicが新たに発表した「Claude 3.5 Sonnet」は、大きな期待を集めるClaude 3.5シリーズの初リリースとなります。このモデルは、OpenAIのGPT-4oやGoogleのGemini-1.5 Proといった有名な競合を凌駕する性能を持つとされています。

Claude 3.5 Sonnetについて

Claude 3.5 Sonnetは、Anthropicが開発した大規模言語モデル（LLM）であり、同社の生成型事前トレーニング変換器（GPT）の一部です。これらのモデルは、大量のテキストデータを使った事前トレーニングによって次に来る単語を予測する能力に優れています。Claude 3.5 Sonnetは、今年3月にデビューしたClaude 3 Sonnetを基盤として開発されました。

この新モデルは前作のClaude 3 Opusよりも2倍速く動作し、さらに手頃な価格設定となっています。これにより、コンテキストを考慮したカスタマーサポートやマルチステップワークフロー管理など複雑なタスクにも最適であるとAnthropicは述べています。

Claude 3.5 Sonnet vs ChatGPT-4o vs Gemini 1.5 Pro

AnthropicはソーシャルメディアプラットフォームXで、Claude 3.5 Sonnetが各種ベンチマークテストで示すスコア（およびその競合との比較）を公開しました。

大学院レベルの推論

GQPA (Graduate-level Physics Questions and Answers): このベンチマークは大学院レベルの物理学問題への回答能力を評価します。

Claude 3.5 Sonnet: 59.4% (0-shot CoT)
GPT-4o: 53.6% (0-shot CoT)

学士レベルの知識

MMLU (Massive Multitask Language Understanding): 人文科学から自然科学まで幅広い分野での理解力を評価します。

Claude 3.5 Sonnet: 88.7% (5-shot), 88.3% (0-shot CoT)
GPT-4o: 88.7% (0-shot CoT)
Gemini 1.5 Pro: 85.9% (5-shot)

コーディング能力

HumanEval: プログラミングタスク記述から正確かつ機能的なコードスニペットを生成する能力を測定します。

多言語数学

MGSM (Multilingual Grade School Math):

Claude 3.5 Sonnet: 91.6% (0-shot CoT)
GPT-4o: 90.5% (0-shot CoT)
Gemini 1.5 Pro: 87.5%

結果

総じて、Claude 3.5 Sonnetは多くのベンチマークでGPT-4oやGemini 1,とは異なる結果が出ています。しかし、それぞれが特定領域では強みを持ちます。

ベンチマーク結果には注意が必要

ほとんどのベンチマークテストは、一つの特定タスクだけに焦点を当てているため、実際の日常業務とは異なることがあります。現実世界では複雑かつ文脈依存的なタスクが多く、この点ではベンチマークテストだけでは計りきれません。また、人間との対話や動的な応答適応能力なども重要ですが、それらも必ずしも標準的なベンチマークでは測定されません。

現実世界でどれだけ効果的かどうか、その真価が問われるでしょう。そして最終的には、それぞれの企業がモデル再訓練や推論処理にどれだけ資金投入するかにも依存します。

Source link