スマホで「GPT-4V」を超える!中国の新しい多モーダルAIモデルが登場
現実世界の視覚情報は絶えず変動し、これを効率的に処理するためには端末側でのビデオ理解が大いに有利です。スマートフォンやPC、ARデバイス、ロボット、自動運転車といった端末は、カメラを備えており、多モーダル入力能力を持っています。クラウドと比べて端末側はユーザーに近く、通信経路が短いため効率が高く、情報セキュリティも強化されています。
本日、中国のAI企業「面壁」は新しいモデル「MiniCPM-V 2.6」を発表しました。このモデルは端末上でGPT-4Vと同等以上の性能を実現しています。
特徴と進化
MiniCPM-V 2.6は初めて単一画像、多画像、ビデオ理解など複数のコア機能でGPT-4Vを超越しました。特に20B以下のパラメータ設定で最高水準(SOTA)を達成し、単一画像理解ではGemini 1.5 ProやGPT-4o miniと肩を並べる性能です。また、このモデルは前世代よりも30%少ない視覚トークン数で、高密度なトークンエンコードを実現しています。
さらに、「リアルタイム」ビデオ理解、多画像連携理解、多画像ICL(In Context Learning)機能を初めて端末上に移植。量子化後のメモリ使用量はわずか6GBで、推論速度も18トークン/秒と速くなり前世代より33%向上しています。llama.cppやollama、vllmなど複数プラットフォームでもサポートされています。
実用例
リアルタイムビデオ理解機能のおかげで、大規模モデルが「目」を持ち、リアルタイムに世界を見ることができます。この機能はAGI(人工汎用知能)の重要なステップとなります。また動画内容要約機能もあり、「長すぎて見られない」動画も簡単に要点だけ抽出可能です。
例えば天気予報動画では音声なしでもOCR技術で画面内の文字認識し、それぞれの都市ごとの天気情報を提供します。また、小さな領収書写真から金額を計算するなど、多様なシナリオにも対応可能です。
比較性能
MiniCPM-V 2.6は8Bパラメータながら総合性能ではGPT-4Vに迫り、一部領域では超越しています。その高いトークン密度(Token Density)は特筆すべき点です。同等クラス他モデルと比較して75%少ない視覚トークン数にも関わらず、高い運用効率を誇ります。
その他国内競合
最近、中国国内でも他社が多モーダルAI開発に力を入れています。例えば上海人工知能研究所や商湯科技などもそれぞれ最新バージョンの多モーダル大規模モデルを発表し、高解像度画像理解や多輪対話など多彩な機能強化を行っています。
これからも中国国内外問わず、多モーダルAI分野で革新的な進展が期待されます。
Source link
GIPHY App Key not set. Please check settings