90億パラメータが「巨人」に挑む──Qwen 3.5 Smallの衝撃
Alibabaが開発するオープンソースLLMシリーズ「Qwen(千問)」の最新モデルQwen 3.5 Smallが、AIコミュニティに大きな衝撃を与えている。パラメータ数わずか90億(9B)でありながら、科学・医学・工学の専門知識を問う難関ベンチマークGPQA(Graduate-Level Google-Proof Q&A)ダイヤモンドにおいて、1,200億(120B)パラメータ規模のモデルと同等の性能スコアを記録したのだ。
GPQAダイヤモンドとは何か
GPQAダイヤモンドは、生物学・化学・物理学の博士課程レベルの問題で構成される評価セットで、Googleによる検索でも簡単には正解できないよう設計されている。現在、AIモデルの「真の推論能力」を測る指標として業界標準的な位置づけを獲得しており、このベンチマークでの高スコアは単純な暗記や検索ではなく、深い概念理解を示す証左とされる。
従来、このクラスのベンチマークで高得点を出すには、GPT-4oやClaude 3 OpusといったフロンティアモデルやMetaのLlama 3.1 405Bのような超大型モデルが必要とされていた。Qwen 3.5 Smallはその常識を覆した形だ。
なぜ小型モデルがここまで強くなれたのか
背景には、ポストトレーニング技術の急速な進化がある。2026年時点で主流となっているのは、従来のRLHF(人間フィードバックによる強化学習)に代わる新世代手法群だ。
- GRPO(Group Relative Policy Optimization):グループ単位での相対評価による効率的な強化学習
- DAPO(Direct Alignment from Preference Optimization):人間の選好データを直接活用した整合化
- RLVR(Reinforcement Learning from Verifiable Rewards):検証可能な報酬信号による強化学習
これらの手法は、モデルの「思考プロセス」を洗練させることに特化しており、パラメータ数を増やさずとも推論品質を飛躍的に向上できる。いわば「筋肉量より神経効率」を鍛えるアプローチだ。
日本市場・エッジAIへの影響
Qwen 3.5 Smallのような高効率小型モデルの台頭は、日本の産業界にも直結する話題だ。クラウドAPIへの依存を減らし、オンプレミスやエッジデバイス上での高精度AI推論が現実的な選択肢となる。医療・製造・金融など、データのクラウド送信に制約がある分野での活用が一気に広がる可能性がある。
また、モデルの小型化はコスト削減にも直結する。GPU使用量の削減はカーボンフットプリントの低減にもつながり、サステナビリティの観点からも注目が集まっている。
「スケーリング則の終わり」か、「新たな次元」か
かつてAI性能はパラメータ数とデータ量に比例するという「スケーリング則(Scaling Law)」が支配的だった。しかし、Qwen 3.5 Smallのような事例が相次ぐ今、業界の視点は「いかに大きくするか」から「いかに効率的に学ばせるか」へと完全にシフトしつつある。
AlibabaはQwenシリーズをオープンソースで公開しており、研究者や開発者が自由に活用・改良できる点も普及の加速要因となっている。小型・高性能・オープンという三拍子が揃ったモデルの登場は、AIの民主化という大きな潮流をさらに推し進めるだろう。
元記事: Qwen 3.5 Small (9B) Matches 120B-Scale Models on GPQA Diamond Benchmark