Switch to the light mode that's kinder on your eyes at day time.

Switch to the dark mode that's kinder on your eyes at night time.

Menu

in AIニュース

「スマホでAI革命：GPT-4Vを搭載した中国大模型が未来を切り拓く」

by インサイトジャパン 2024年8月7日, 12:21

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

スマホで「GPT-4V」を超える！中国の新しい多モーダルAIモデルが登場

現実世界の視覚情報は絶えず変動し、これを効率的に処理するためには端末側でのビデオ理解が大いに有利です。スマートフォンやPC、ARデバイス、ロボット、自動運転車といった端末は、カメラを備えており、多モーダル入力能力を持っています。クラウドと比べて端末側はユーザーに近く、通信経路が短いため効率が高く、情報セキュリティも強化されています。

本日、中国のAI企業「面壁」は新しいモデル「MiniCPM-V 2.6」を発表しました。このモデルは端末上でGPT-4Vと同等以上の性能を実現しています。

特徴と進化

MiniCPM-V 2.6は初めて単一画像、多画像、ビデオ理解など複数のコア機能でGPT-4Vを超越しました。特に20B以下のパラメータ設定で最高水準（SOTA）を達成し、単一画像理解ではGemini 1.5 ProやGPT-4o miniと肩を並べる性能です。また、このモデルは前世代よりも30％少ない視覚トークン数で、高密度なトークンエンコードを実現しています。

さらに、「リアルタイム」ビデオ理解、多画像連携理解、多画像ICL（In Context Learning）機能を初めて端末上に移植。量子化後のメモリ使用量はわずか6GBで、推論速度も18トークン/秒と速くなり前世代より33％向上しています。llama.cppやollama、vllmなど複数プラットフォームでもサポートされています。

実用例

リアルタイムビデオ理解機能のおかげで、大規模モデルが「目」を持ち、リアルタイムに世界を見ることができます。この機能はAGI（人工汎用知能）の重要なステップとなります。また動画内容要約機能もあり、「長すぎて見られない」動画も簡単に要点だけ抽出可能です。

例えば天気予報動画では音声なしでもOCR技術で画面内の文字認識し、それぞれの都市ごとの天気情報を提供します。また、小さな領収書写真から金額を計算するなど、多様なシナリオにも対応可能です。

比較性能

MiniCPM-V 2.6は8Bパラメータながら総合性能ではGPT-4Vに迫り、一部領域では超越しています。その高いトークン密度（Token Density）は特筆すべき点です。同等クラス他モデルと比較して75%少ない視覚トークン数にも関わらず、高い運用効率を誇ります。

その他国内競合

最近、中国国内でも他社が多モーダルAI開発に力を入れています。例えば上海人工知能研究所や商湯科技などもそれぞれ最新バージョンの多モーダル大規模モデルを発表し、高解像度画像理解や多輪対話など多彩な機能強化を行っています。

これからも中国国内外問わず、多モーダルAI分野で革新的な進展が期待されます。

関連

Written by インサイトジャパン

コメントを残すコメントをキャンセル

GIPHY App Key not set. Please check settings

「未来を切り拓くAI技術：大規模言語モデル(LLM)の活用法と革新的なアーキテクチャ」

ChatGPT超え？有料プランが1年間無料で話題になったAI検索エンジン「Perplexity」を実際に ...

「ChatGPT超えか？話題のAI検索エンジン『Perplexity』が有料プラン1年間無料で提供、その実力を徹底検証！」

Back to Top

Close

Redirecting in 10 seconds

Close

close