Meta、世界最強の開源AIモデル「Llama 3.1」を発表
Metaが最新のAIモデル「Llama 3.1」を発表しました。特に注目すべきは、405B(4,050億パラメータ)という巨大なモデルであり、これは現在利用可能な中で最も強力な開源大規模言語モデル(LLM)です。この新しいモデルは、その性能と機能によって、開源と閉源のどちらが優れているかという議論を終結させるものとなっています。
Llama 3.1の特性
Llama 3.1には8B、70B、および405Bの三つのバージョンがあります。これらは最大128Kコンテキスト長をサポートし、多言語対応であることや、高いコード生成性能、複雑な推論能力など多くの特徴を持っています。また、基準テストではGPT-4やClaude 3.5と互角以上の結果を示しています。
主な特性一覧
- サイズ: 8B(80億パラメータ)、70B(700億パラメータ)、405B(4,050億パラメータ)
- コンテキスト長: 最大128K
- 多言語対応
- 優れたコード生成性能
- 複雑な推論能力
- 開放/無料提供: モデル重量やソースコードが公開されており、ユーザーは自由に微調整が可能。
- Llama Stack API: 外部ツールとの連携も容易。
基準テストでの性能
基準テストではLlama 3.1 405Bは全方位で他社製品を圧倒しており、その実力が証明されています。特にNIH/Multi-needleやZeroSCROLLS/QUALITYなどの基準テストでは非常に高得点を獲得しています。
訓練プロセス
Llama 3.1 405Bは15兆個以上のトークンを用いて訓練されました。この訓練には16,000個以上のH100 GPUが投入され、大規模かつ効率的な訓練環境が整えられました。標準デコーダTransformerモデルアーキテクチャを選択し、高品質な合成データを用いた反復後訓練プログラムも導入されています。
実用性と安全性
このモデルは実用性と安全性にも重きを置いて設計されており、多くの使用シナリオに適応できるようになっています。監督微調整や拒否サンプル法など、多様な方法で精度向上が図られています。
開源コミュニティへの貢献
MetaはLlamaシリーズを通じて開源コミュニティへの貢献も意識しており、「Llama Stack」など標準化されたインターフェースによってツールチェーンコンポーネントやスマートアプリケーション間の相互運用性も促進されています。また、新しい開源ライセンスでは他モデルへの改良も許可されており、更なる研究・開発が期待されています。
Meta CEO マーク・ザッカーバーグ氏は、「未来のLlamaシリーズは業界最先端になるだろう」と述べており、この新時代の幕開けに対する大きな期待感が伺えます。
Source link
GIPHY App Key not set. Please check settings