OllamaがOpenAI Codex Appへの対応を追加し、vLLM 0.21がDeepSeek V4のNVIDIA Blackwell GPU安定動作を実現、MLX 0.31.xがApple M5チップで最大4倍の高速化を達成——2026年5月、ローカルAI実行環境の主要5ランタイムが一斉に大型アップデートを果たした。

Ollama:11日間で6リリース、Codex App対応が目玉

Ollamaは5月の11日間で0.23.0から0.24.0まで6つのリリースを重ねた。最注目はv0.24.0(5月14日)でのCodex App対応ollama launch codex-app コマンドひとつで、OpenAIのデスクトップ型コーディング環境「Codex」をOllamaが管理するオープンモデルで動作させられる。並列ワークツリー、内蔵git、ブラウザベースのローカルサーバー検査といった機能を、プロプライエタリなAPIキーなしで利用できる点が魅力だ。

もう一つの実用的な進化がv0.23.1でのGemma 4 MTP(Multi-Token Prediction)投機デコード。Apple SiliconのMLXランナー経由でGemma 4 31Bのコーディングタスクにおいて2倍以上の速度向上が計測された。ドラフターがターゲットモデルのKVキャッシュを再利用する設計のため、余計なコンテキスト再計算を省ける。

なお、v0.23.0で追加されたClaude Desktop対応はv0.23.2で削除されている。Anthropicモデル専用の統合はOllamaのオープンモデル方針と相容れないというのが理由だ。すでに自動化スクリプトに組み込んでいたユーザーは ollama launch claude-desktop --restore で元の状態に戻せる。

vLLM 0.21:DeepSeek V4 × BlackwellとEAGLE 3.1投機デコード

サーバー向け推論エンジンvLLM 0.21.0では、NVIDIA BlackwellアーキテクチャのGPU上でDeepSeek V4を安定動作させるTOKENSPEED_MLAバックエンドが導入された。これまで不安定だった大規模モデルの企業内オンプレ展開が現実的な選択肢になりつつある。また投機デコードが思考予算(reasoning budget)を尊重するよう改善され、長い思考連鎖を持つモデルでも精度を落とさず高速化できるようになった。続くv0.22.0ではEAGLE 3.1ドラフトモデルによる投機デコードが追加され、さらなるスループット向上が期待できる。

llama.cpp:Qwen3.6 MTPとWindows CUDA 13.1プリビルド

llama.cppはQwen 3.6のMTP対応(PR #22673)をマージし、WindowsユーザーはCUDA 13.1対応のビルド済みバイナリ(build b9196)を直接入手できるようになった。コンパイル環境構築の手間が不要になり、Windowsでのローカル推論の敷居がさらに下がっている。

MLX 0.31.x:Apple M5 Neural Acceleratorで最大4倍のTTFT高速化

macOS 26.2とMLX 0.31.xの組み合わせが、Apple M5チップのNeural Accelerator専用ハードウェアを推論に活用できるようになった。ベンチマークでは最初のトークンが出力されるまでの時間(TTFT:Time To First Token)が最大4倍高速化している。M4世代まではソフトウェアエミュレーションで処理していた行列演算がハードウェアで直接実行されるため、大幅な改善が生まれる。M5搭載Macを使っているユーザーには即効性のある更新だ。

LM Studio 0.4.14:MTP投機デコードが安定版に昇格

LM Studioはv0.4.13で並列ビジョン推論を追加し、v0.4.14でMTP投機デコードを実験的機能から安定版に昇格させた。GUIベースのローカルLLM環境を利用しているユーザーが、特別な設定なしに高速化の恩恵を受けられる。

実務への影響

これらのアップデートが共通して示すのは、ローカルLLM実行環境が「趣味・実験レベル」から「実務基盤レベル」へ本格移行しつつあるという事実だ。日本のエンジニア・IT管理者が注目すべき変化は3点ある。

① Codex AppのOllamaバックエンド対応は、コーディング支援をクラウドAPIに依存せず自社インフラで完結させたい企業にとって有力な選択肢になる。情報漏洩リスクを警戒しながらもAIコーディング支援を活用したい組織には特に朗報だ。

② MTP投機デコードの各ランタイムへの普及は、既存ハードウェアのまま応答速度を改善できることを意味する。OllamaまたはLM Studioをアップデートするだけで恩恵を受けられるため、追加投資なしに体験が向上する。

③ M5 Neural AcceleratorのMLX活用は、Macをローカル推論ワークステーションとして選ぶ根拠をさらに強化する。4倍という数字はハードウェア調達の判断材料にもなりうる。

筆者の見解

ローカルAIランタイムのアップデートサイクルが急加速している。特に印象的なのはMTP投機デコードの各ランタイムへの一斉浸透だ。複数トークンを並行して予測するこのアプローチは、モデル重みを変えることなくスループットを大幅に引き上げる。モデルサイズや能力の競争から「同じモデルをいかに効率よく動かすか」という推論効率の競争へのシフトは、ハードウェアリソース活用という観点で本質的に重要な方向性だと感じる。

Ollamaが11日間で6リリースというペースを維持できていること自体、エコシステムの健全な勢いを示している。ただし個人的な考えとして、更新を追いかけることに労力をかけすぎるより、実際に手を動かして使い込む経験の方が確実に成果につながる。ランタイムはどれも急速に良くなっているが、まず一つを選んで徹底的に使い倒す方が、表面的に全部を追いかけるよりずっと価値がある。ローカルLLMはもはや「いつか使ってみよう」ではなく、今日から実務に組み込める段階に来ている。


出典: この記事は Local AI Runtime Update: What Shipped in Ollama, vLLM, llama.cpp, MLX, and LM Studio in May 2026 の内容をもとに、筆者の見解を加えて独自に執筆したものです。