Mistral Small 3.1 24B、オープンソースで登場
フランスのAIスタートアップMistral AIが、最新モデル「Mistral Small 3.1(パラメータ数:24B)」をオープンソースライセンスで公開した。2026年3月に相次いで発表されたオープンソースLLMアップデートの中でも、特に注目を集めている一本だ。
「軽量=性能妥協」の常識を覆す
これまでオープンソースモデルといえば、商用クローズドモデルと比べて性能面で一歩劣るというイメージが根強かった。しかし2026年3月の最新リリース群はその常識を大きく塗り替えつつある。
Mistral Small 3.1はその代表例だ。24Bというパラメータ規模は、100B超の大規模モデルに比べれば「小型」の部類に入るが、推論精度や応答品質は2025年後半の商用モデルと肩を並べるレベルに達していると評価されている。
ローカル実行でコストを大幅削減
最大のメリットはコストとプライバシーだ。商用APIを利用する場合と比べ、自前のGPU環境や小規模クラウドインスタンスで運用することで、推論コストを最大70%削減できるという試算も報告されている。
実行に必要なVRAMの目安は以下のとおり。
- 7Bモデル:最低16GB VRAM
- 13B以上(4ビット量子化使用時):最低24GB VRAM
Mistral Small 3.1(24B)を快適に動かすには、24GB VRAMを搭載したGPU(NVIDIA RTX 3090/4090など)が推奨される。
技術的な進化:PagedAttentionと投機的デコーディング
今回のリリースで特筆すべきは、スペキュラティブデコーディング(Speculative Decoding)やPagedAttentionといった推論最適化技術が標準搭載されている点だ。これらはかつて研究論文の中だけに存在していた手法だが、現在は主要なオープンソースモデルに直接統合されるようになっている。
これにより、「Time-to-First-Token(TTFT)」と呼ばれる最初のトークンが返ってくるまでの応答時間が大幅に短縮。コンシューマー向けハードウェアでも200ms以下の応答が実現可能になっている。
Ollamaで簡単に導入可能
ローカル環境への導入は、統合ランナーOllamaを使えば比較的容易だ。インストール後、以下のコマンド一発でモデルを取得できる。