Allen AI(アレン人工知能研究所)は、オープンソースのVLA(Vision-Language-Action:視覚言語行動)基盤モデル「MolmoAct2」を公開した。低〜中コストのロボットハードウェア上でリアルタイムの閉ループ制御を実現し、連続操作ベンチマークでπ0.5やGPT-5を超える性能を達成したと報告されている。
VLAモデルとは何か
VLA(視覚言語行動)モデルとは、カメラ映像などの視覚情報、自然言語による指示、そしてロボットの具体的な動作(アクション)を一体で処理する基盤モデルだ。従来のロボット制御では「見る」「理解する」「動く」が別々のモジュールで処理されていたが、VLAはこれらを統合し、「目の前の物体を掴んでここに置け」のような自然言語指示を直接ロボットの動作に変換できる。
MolmoAct2は、Allen AIが独自開発した大規模言語モデル「Molmo」をバックボーンに採用。これに「フローマッチング型ノイズ除去トランスフォーマー(Flow-Matching Denoising Transformer)」と呼ばれるアクション生成器を接続し、各トランスフォーマー層のキー・バリュー(KV)情報を深く結合することで、高精度な動作予測を実現している。
MolmoAct2-Think:リアルタイム対応の鍵
実世界でのロボット制御における最大の課題の一つが「推論レイテンシ(遅延)」だ。高精度なAIモデルを動かすほど処理が重くなり、リアルタイム制御が難しくなる。
MolmoAct2が独自に導入したのが、MolmoAct2-Thinkと呼ばれる適応深度知覚フレームワークだ。シーン全体を毎フレーム再計算するのではなく、「動きのある領域」のみを選択的に更新するという発想に基づいている。静止した背景の処理を省略することで推論レイテンシを大幅に削減しつつ、高い知覚精度を維持する。これにより、低〜中コストの異種ロボットプラットフォームへの展開が現実的なものとなった。
複数ロボット形態への対応(マルチエンボディメント)
MolmoAct2のもう一つの特徴が「マルチエンボディメント(多身体対応)」だ。一つのモデルが、アームロボット、移動ロボット、マニピュレーターなど形態の異なるロボットに対応できる。ロボット形態ごとに専用モデルを学習・管理する必要がなくなり、導入・運用コストの大幅な削減につながる可能性がある。
オープンソース公開の意義
Allen AIは今回のモデルをGitHubでオープンソース公開している。閉源モデルが高性能化を続ける中で、研究コミュニティ全体がアクセスできる高性能VLAモデルの登場は、ロボティクス研究の裾野を広げる上で大きな意味を持つ。
実務への影響
MolmoAct2の公開は、以下の場面でインパクトをもたらす可能性がある:
- 製造・物流: 低コストロボットへの知能化が現実的な予算で可能になる。自然言語指示ベースのロボット操作は、プログラミング不要の現場導入への入り口となりうる
- 研究機関・大学: 日本国内の大学・研究機関が物理AI研究に本格参入するための足がかりが整った
- スタートアップ: クローズドAPIへの依存コストを抑えながら、自社ロボットへの組み込みが可能になる選択肢が広がった
筆者の見解
ロボティクスとAIの融合は「物理AI」とも呼ばれ、2026年のAI研究の最前線の一つだ。MolmoAct2で特に着目したいのが「リアルタイムの閉ループ制御」という設計思想だ。
AIエージェントの本質は、人間に逐一確認を求めるのではなく、自律的に判断・実行・検証のサイクルを回し続けることにある。ソフトウェア領域のAIエージェントが目指す自律的なハーネスループと、物理ロボットのリアルタイム閉ループ制御は、概念として驚くほど一致している。「AIが自律的にサイクルを回す」——これが次の時代の核心であり、MolmoAct2はその物理世界版の実装例として位置づけられる。
オープンソースで公開された点も重要だ。特定企業のクローズドなエコシステムに縛られず、研究コミュニティ全体がアクセスできるモデルは技術の進化速度を高める。VLAの分野で何が起きているかを把握しておくことは、ロボティクス×AI応用を見据えるITエンジニアにとって今後ますます価値を持つだろう。
出典: この記事は MolmoAct2: Open-Source Vision-Language-Action Foundation Model の内容をもとに、筆者の見解を加えて独自に執筆したものです。