エッジコンピューティングの巨人・Cloudflareが、超大規模言語モデル(LLM)をエッジネットワーク上で稼働させるためのインフラ技術を詳細に公開した。Moonshot AIのKimi K2.5(8×H100 GPU構成)やLlama 4 Scout(2×H200 GPU構成)を実際に動かしながら培った知見を惜しみなく開示した内容で、AIエージェント開発に関わるエンジニアなら必読の一報だ。

Rust製推論エンジン「Infire」──vLLM比20%の高スループット

Cloudflareが自社開発したのが、Rust製推論エンジン「Infire」だ。既存の代表的な推論フレームワークであるvLLMと比較して最大20%の高スループットを達成したとされる。Rustで書かれている点が特徴的で、メモリ安全性とゼロコスト抽象化というRustの強みをGPU推論の世界に持ち込む設計思想が見える。

テンソル並列(Tensor Parallelism)とパイプライン並列(Pipeline Parallelism)の両方をサポートしており、モデルの規模やユースケースに応じて柔軟な構成が取れる。Kimi K2.5のような巨大モデルでも、リクエスト処理開始まで20秒以内という応答性を実現している。

Prefill-Decode(PD)分離アーキテクチャの意義

技術的に最も注目すべきが、「Prefill-Decode(PD)分離(Disaggregation)」の実装だ。

LLMの推論処理は大きく2つのフェーズに分かれる:

  • Prefill(プリフィル): 入力トークンを処理してKVキャッシュに保存するフェーズ。演算バウンド
  • Decode(デコード): KVキャッシュから出力トークンを生成するフェーズ。メモリバウンド

従来は1台のサーバーでこの2フェーズを直列処理していたが、これではGPUリソースを効率的に使えない。Prefillはコンピュートをフル活用する一方、Decodeはメモリ帯域が律速になるためだ。

PD分離では、専用のPrefillサーバーと専用のDecodeサーバーを分けて運用する。KVキャッシュをPrefillサーバーからDecodeサーバーへ転送する仕組みが必要になるが、Cloudflareはそのためのトークン対応ロードバランサーも独自実装している。ストリーミングSSEのレスポンスも書き換える必要があり、実装の難易度は相当高い。結果として、Prefillサーバーはコンピュート最適化ハードウェアに、Decodeサーバーはメモリ帯域最適化ハードウェアに、それぞれ独立してチューニングできる構成が実現する。

エージェントユースケースに特化した設計思想

このインフラがAIエージェント向けに特化して設計されているという点も重要だ。

エージェントの場合、入力トークン数が急増しやすい。システムプロンプト、ツール定義、MCPサーバーの情報、過去の会話履歴──これらすべてが毎ターン入力として渡される。Cloudflareはこの特性を熟知した上で、高速な入力トークン処理高速なツール呼び出しの2点をWorkers AIの最優先課題として設定している。この「何のために速くするのか」を先に決めてからアーキテクチャを設計する逆算の発想が、今回の技術の本質だと感じる。

実務への影響

日本のエンジニアやIT管理者にとって、このニュースはいくつかの実務的含意を持つ。

1. エッジLLMホスティングの選択肢が広がる AWS BedrockやAzure OpenAI Serviceといったクラウド大手に一極集中していたLLMホスティングの選択肢が増える。Cloudflareのエッジネットワークは日本国内にもPoP(接続拠点)を持っており、低レイテンシが求められるアプリケーションで優位性を持ちうる。

2. オープンソースモデルの本番利用が加速する Kimi K2.5やLlama 4といったオープンソース系モデルの本番環境への道筋が整いつつある。プロプライエタリAPIへの依存を下げたい企業にとって、インフラ面での障壁が確実に低下している。コスト構造の変化にも注目しておく価値がある。

3. AIエージェント設計の前提が変わる Prefillが高速化されることで、長大なコンテキストを持つエージェントの応答性が向上する。「コンテキストウィンドウが大きいと遅い」という制約が緩和されることで、より複雑なエージェント設計が現実的になる。ツール呼び出しを多用するマルチステップエージェントにとっては直接的な恩恵だ。

筆者の見解

AIエージェントが実用に耐えるものになるかどうかは、突き詰めると「インフラが追いつくか」の問題だ。どんなに優れたエージェント設計であっても、リクエストの応答に数十秒かかるようでは実務で使えない。Cloudflareが今回公開した技術──PD分離、Rust製推論エンジン、テンソル並列対応──は、まさにその壁を崩すための地道な工学的努力の結晶だ。

AIエージェントが自律的にループで動き続ける仕組み──単発の指示→応答ではなく、自分で判断・実行・検証を繰り返す真のエージェント動作──こそが次のフロンティアだと思っている。その実現に必要なのは、優れたモデルだけでなく、長大なコンテキストを高速に処理できるインフラだ。今回Cloudflareが見せたのは、その未来への着実な投資である。

エッジでここまでのことができるようになってきたという事実は、日本のエンジニアコミュニティとしても注目し続ける価値がある。オープンソースモデル×エッジインフラという組み合わせが「実用レベル」に達する日は、思っているより早く来るかもしれない。


出典: この記事は Building the foundation for running extra-large language models の内容をもとに、筆者の見解を加えて独自に執筆したものです。