スマホメーカーがAI最前線へ——小米「MiMo-V2-Pro」の衝撃

世界第3位のスマートフォンメーカーであり、電気自動車(EV)「SU7」「YU7」を展開する小米(シャオミ)が、生成AI最前線に本格参入した。同社が発表したMiMo-V2-Proは、総パラメータ数1兆(1T)を持つ大規模言語モデル(LLM)だが、その設計思想はチャット向け汎用モデルではなく「AIエージェントの頭脳」として最適化されている点が異色だ。

DeepSeek R1の立役者が率いる開発チーム

開発を主導するのは、DeepSeekの「R1」プロジェクトで中心的な役割を担ったFuli Luo氏。同氏は本モデルを「フロンティアへの静かな奇襲」と表現しており、純粋な会話ベンチマークではなく、**ターミナル操作・コード実行・ツール連携といった「行動空間(Action Space)」**での優位性を競争軸に据えている。

この方向性は小米のハードウェア事業と無関係ではない。IoTデバイスやEVで培ったリアルタイム判断・制御のノウハウを、デジタル環境全般に応用する試みとして位置付けられている。

MoEで1兆パラメータの「推論コスト問題」を解決

MiMo-V2-Proの技術的な肝はスパースなMixture-of-Experts(MoE)アーキテクチャだ。総パラメータは1兆だが、1回の推論(フォワードパス)で実際に動くのは約420億(42B)パラメータのみ。これにより、超大規模モデルの表現力を持ちながら、計算コストは40Bクラスに抑えられる。

OpenRouter経由のAPIコストは256Kトークンの範囲内で現在無料公開されており、GPT-5.2やClaude Opus 4.6と同等の性能をはるかに低コストで利用できる点が実務家には刺さる。

100万トークンのコンテキストを支える「ハイブリッドアテンション」

長大なコンテキスト処理にも工夫がある。標準的なTransformerアーキテクチャでは、コンテキスト長が伸びるにつれ計算量が二乗的に増加するという問題がある。MiMo-V2-Proは7:1のハイブリッドアテンション比率(前世代MiMo-V2-Flashの5:1から強化)を採用し、入力の約85%を「構造的把握」に、残り約15%を「精密な推論」に振り分けることで、最大100万トークンのコンテキストウィンドウを実現している。

これはログの蓄積・計画・状態更新など長大な情報系列を処理するエージェントワークフローに直結する特性だ。

さらに**Multi-Token Prediction(MTP)**レイヤーにより、1トークンずつの逐次生成を超えた複数トークンの同時予測が可能になり、エンタープライズ用途での応答速度向上にも貢献する。

日本市場へのインパクト

国内ではほぼ未報道のMiMo-V2-Proだが、エージェント型AI開発者や企業のAI基盤担当者にとって見逃せない存在だ。コード・ターミナル・複雑なオーケストレーション基盤を統合した長期タスク処理に特化した設計は、サプライチェーン管理・コード自動化・複数AIエージェントの協調制御といった実務シナリオとの親和性が高い。

オープンソース版の公開も「モデルが安定した段階で」検討されているとLuo氏は述べており、今後の動向は要注目だ。GPT・Claudeが当然視されてきたフロンティアに、コスト競争力を武器にした第三極が出現しつつある。


元記事: Inside Xiaomi’s MiMo-V2-Pro: A 1T-Parameter Agentic LLM Challenging GPT-5.2 on Cost and Capability