Alibaba Cloud、マルチモーダルエージェント向け「Qwen3.5」シリーズを正式公開

Alibaba CloudのQwenチームは、マルチモーダルAIエージェント向けの新モデルシリーズ「Qwen3.5」を公開した。パラメータ数0.8Bから9Bまでの小型モデルで構成されており、エッジデバイスやオンデバイスAI用途への展開を強く意識した設計となっている。

9Bモデルが旧世代27Bを凌駕

今回のシリーズで特に注目を集めているのが、最上位の9Bモデルだ。ベンチマーク評価では、約3倍のパラメータ数を持つ旧世代モデルを上回る性能を記録した。モデルの大型化に頼らずに性能を引き上げるという近年のトレンドを体現した結果であり、学習効率や推論アーキテクチャの改善によるものとされている。

視覚理解ではGPT-5-Nanoを大幅上回る

視覚理解(Visual Understanding)の分野では、OpenAIが提供するGPT-5-Nanoを大きく上回るスコアを達成した。画像の内容把握、図表の読み取り、複雑なシーン理解など、マルチモーダルエージェントが現実世界で動作するために必要な能力を重点的に強化した成果とみられる。

「ネイティブ・マルチモーダルエージェント」というコンセプト

Qwen3.5のシリーズ名に添えられた副題「Towards Native Multimodal Agents(ネイティブ・マルチモーダルエージェントへ向けて)」が示すように、テキストと画像をシームレスに扱うエージェントAIの実現を主眼に置いている。従来の「テキストが主、画像は補助」という設計から脱却し、視覚情報を最初から対等に扱えるモデルを目指した点が大きな特徴だ。

日本への影響と今後の展開

国内でも法人・個人を問わずLLM(大規模言語モデル)の活用が加速しており、軽量かつ高性能なオープンモデルへの需要は高まる一方だ。Qwen3.5はApache 2.0ライセンスでの公開も予定されており、ローカル環境での自社AIエージェント構築に活用できる可能性がある。モデルはHugging Faceなどのプラットフォームを通じて近く公開される見通しで、国内エンジニアや研究者からの注目も高い。

Alibaba Cloudは昨年来、Qwenシリーズを急速に進化させており、今回のQwen3.5はその集大成ともいえるリリースだ。小型モデルの性能競争はますます激化しており、Google、Meta、Mistralなどとの覇権争いが続く中、中国発モデルの台頭が改めて示された形となった。


元記事: Qwen3.5: Towards Native Multimodal Agents