アリババのQwenチームが2026年3月末に公開した「Qwen3.5-Omni」は、テキスト・画像・音声・動画を単一のパイプラインでネイティブ処理する「真のオムニモーダルモデル」だ。215項目の音声・視聴覚ベンチマークでSOTA(最先端)を達成し、Googleのフラッグシップ「Gemini 3.1 Pro」を音声理解の複数カテゴリで上回ったと発表された。日本のエンジニアにとっても無視できないリリースである。
Thinker-Talkerアーキテクチャとは何か
従来のマルチモーダルモデルの多くは「テキストLLMにWhisperなどの外部エンコーダをくっつけた」構成だった。要するに継ぎ接ぎだ。Qwen3.5-Omniはその設計を根本から変えている。
中核はThinkerとTalkerの2コンポーネントからなる統合アーキテクチャ。Thinkerは思考・推論を担い、Talkerはリアルタイムの音声応答を生成する。両者を結ぶのが**Hybrid-Attention MoE(Mixture of Experts)**で、モダリティ(入力種別)ごとにどのエキスパートパラメータを使うかを動的に切り替える。
特筆すべきはAudio Transformer(AuT)エンコーダが1億時間以上の視聴覚データで事前学習されている点だ。人間の「聞いて見て理解する」感覚に近い時系列・音響的なニュアンスをモデルが持つことになる。
スペックのハイライト
- コンテキスト長: 256kトークン(連続音声10時間超、720p動画400秒超に対応)
- 音声認識対応言語: 113言語
- ベンチマーク: 一般音声理解・推論・認識・翻訳でGemini 3.1 Proを超えたと発表
- ラインナップ: Plus(高精度推論)/ Flash(低レイテンシ・高スループット)/ Light(軽量・省コスト)の3段構成
「Audio-Visual Vibe Coding」という新概念
今回のリリースで特に目を引いたのが**「Audio-Visual Vibe Coding」**という機能だ。動画を見せながら音声で「ここのUIを直して」と指示するだけで、モデルがコードを生成するというもの。テキストと動画と音声を同時に文脈として保持できるネイティブマルチモーダルだからこそ実現できるユースケースであり、従来のCopilotのような「テキスト補完の延長」とは一線を画す。
実務への影響——日本のエンジニア・IT管理者に何が変わるか
1. 議事録・会議解析の精度が跳ね上がる 音声認識で113言語対応、かつ映像も同時処理できるとなれば、Zoom・Teams録画をまるごと投げ込んで「誰がどの資料を見ながら何を言ったか」を構造化するワークフローが現実的になる。日本語対応品質の実測は必須だが、ASR系ベンチマークでの強さは期待を持たせる。
2. ローカルデプロイの選択肢として Qwenシリーズは従来からオープンウェイトモデルの公開が積極的だ。Qwen3.5-Omniも段階的にモデルウェイトの公開が見込まれる。セキュリティポリシーの都合でクラウドAPIを使えないシステムでも、ローカルで動かせる可能性がある。Lightエディションはその筆頭候補だ。
3. 競合圧力がAPIコストを下げる Geminiに対して性能で並んだあるいは超えたと主張するモデルが出てくると、OpenAI・Googleはプライシングで対抗せざるを得ない。最終的にエンドユーザー側のAPIコストが下がる恩恵は計り知れない。
筆者の見解
正直に言う。中国勢のLLMはローカルモデルのコスパで以前から群を抜いていたし、Qwen3.5-Omniはその文脈の延長線上にある。215個のSOTAとか言われても「ベンチマークは自己申告」という skepticism は必要だし、実際に日本語環境で動かして初めて評価できる話だ。
ただ、Thinker-Talkerアーキテクチャの設計思想は本物だと思う。テキストに後付けで音声エンコーダをくっつけたモデルと、最初から音声・映像・テキストを統合設計したモデルは、コンテキスト理解の質が根本から違う。「継ぎ接ぎより一体設計」という方向性は正しい。
Geminiとの比較についてはベンチマーク上の数値は確認できるが、画像生成以外の実務タスクでの性能差がどの程度なのかという点が気になる。さらに言えば、本当に評価したいのは主要なクローズドモデルとの直接比較だが、そこへの言及がないのが物足りない。
とはいえ、「アリババが本気のマルチモーダルを出してきた」という事実は重い。日本企業がまだOpenAI一辺倒で動いている間に、選択肢は急速に広がっている。情報を追い続けるより実際に使って見極めるべきフェーズだ。Flash版でもいいから動かしてみてほしい。
出典: この記事は Alibaba Qwen Team Releases Qwen3.5-Omni: A Native Multimodal Model for Text, Audio, Video, and Realtime Interaction の内容をもとに、筆者の見解を加えて独自に執筆したものです。