Mistral AI、119BパラメータのMoEモデル「Mistral Small 4」公開——推論・マルチモーダル・コーディングを1モデルに統合

Mistral AI、多機能統合モデル「Mistral Small 4」をリリース

フランスのAIスタートアップMistral AIは、新モデル「Mistral Small 4」を公開した。同社がこれまで別々に提供していた複数の専門モデルを1つに統合したのが最大の特徴で、Apache 2.0ライセンスのもと商用利用も可能だ。

4つのモデルを1つに

Mistral Small 4は、以下の4つの役割を単一モデルで担う。

Mistral Small（命令追従・一般チャット）
Magistral（推論・思考）
Pixtral（マルチモーダル・画像理解）
Devstral（エージェントコーディング）

従来はタスクに応じてモデルを切り替える必要があったが、Small 4ではAPIを変えずにすべてのワークロードを処理できる。システム設計の複雑さを減らし、運用コストを下げることが狙いだ。

アーキテクチャ：MoEで「軽さ」と「賢さ」を両立

アーキテクチャには**Mixture-of-Experts（MoE）を採用。総パラメータ数は1,190億（119B）と大規模だが、1トークンあたりの推論に使うアクティブパラメータは約60億（6B）**に抑えられている。埋め込み・出力層を含めても80億（8B）程度であり、実際の計算コストは総パラメータ数ほど大きくない。128の専門家（エキスパート）のうち、各トークン処理時に4つだけが有効化されるスパース構造が効率化の鍵だ。

コンテキストウィンドウは256,000トークンと広大で、長文ドキュメントの分析、コードベース全体の探索、複数ファイルにまたがる推論といった実用的なエンジニアリングシナリオで効果を発揮する。

推論の深さをリクエストごとに調整可能

注目の新機能が、推論努力量（reasoning_effort）のリアルタイム制御だ。開発者はAPIリクエストごとにこのパラメータを指定できる。

設定値挙動

none 高速・簡潔な応答（Mistral Small 3.2相当）

high 段階的な深い思考・詳細な回答（Magistral相当）

これにより、軽量な質問には素早く、複雑な問題には時間をかけて思考させるという使い分けが、同一モデル・同一エンドポイントで完結する。「高速モデル」と「推論モデル」を別々に管理する必要がなくなり、プロダクト開発の効率が向上する。

処理速度と効率の改善

Mistralによると、Mistral Small 3比でエンド・ツー・エンドの完了時間が40%短縮、スループット最適化構成では1秒あたりの処理リクエスト数が3倍に向上したという。

ベンチマーク結果

Mistralが公開したベンチマーク結果では、Small 4（推論モード）はGPT-OSS 120Bと同等以上のスコアを複数のベンチマーク（AA LCR、LiveCodeBench、AIME 2025）で記録した。特筆すべきは出力効率で、QwenシリーズがAA LCRで同等性能を出すために5,800〜6,100文字の出力を要するのに対し、Small 4は1,600文字程度で同等の精度を達成したとされる。LiveCodeBenchではGPT-OSS 120Bを上回りつつ、出力量を約20%削減している。

ただし、これらはMistral自身が公開した数値であり、第三者による独立した検証は今後に委ねられる部分も多い。

日本の開発者への影響

国内でも、RAGシステムやエージェントAIの開発において「モデルの使い分け」が運用上の課題となっているケースは多い。Small 4のような統合型モデルが実用レベルで機能するなら、マルチモデル管理の負担軽減につながる可能性がある。Apache 2.0ライセンスでの公開により、オンプレミス環境やプライベートクラウドでの自社ホスティングも検討しやすい。

元記事: Mistral AI Releases Mistral Small 4: A 119B-Parameter MoE Model that Unifies Instruct, Reasoning, and Multimodal Workloads

Mistral AI、多機能統合モデル「Mistral Small 4」をリリース#

4つのモデルを1つに#

アーキテクチャ：MoEで「軽さ」と「賢さ」を両立#

推論の深さをリクエストごとに調整可能#

処理速度と効率の改善#

ベンチマーク結果#

日本の開発者への影響#