OpenAIは7月、次期フラッグシップモデル「GPT-5.6 Sol」を、AI半導体スタートアップのCerebras Systems製ウェハースケールチップ上で稼働開始すると明らかにした。想定される出力速度は毎秒750トークン。一般的なGPUクラスタでの応答生成速度(毎秒40〜120トークン程度)と比べておよそ10倍に達する見込みだ。まずは限定的な顧客からの提供となり、Cerebras側の供給能力拡大に応じて対象を広げていく計画という。

ウェハースケール推論という力技

Cerebrasの最大の特徴は、通常のチップのようにシリコンウェハーを切り分けて使うのではなく、ウェハー1枚をまるごと1つの巨大な演算チップとして使う「ウェハースケールエンジン」にある。モデルの重みをオンチップのメモリに載せたまま処理できるため、GPUクラスタで発生しがちなメモリ帯域のボトルネックを回避しやすい。これが毎秒750トークンという桁違いの数字につながっている。

なお今回のCerebras展開は、6月29日に発表されたBroadcom製推論チップ「Jalapeño」とは別ルートだ。OpenAIは同じGPT-5.6 Solを、性格の異なる2種類のカスタムシリコン上で並行して走らせるという、いわば「二正面作戦」を取っている。特定ベンダーへの依存リスクを避けつつ、速度と供給量の両方を確保する狙いが透けて見える。

200億ドル契約とCerebrasのIPO

背景にあるのが、OpenAIとCerebrasの間で以前から明らかになっていた総額200億ドル超・750メガワット規模の複数年推論契約だ。Cerebrasは今年に入りIPO申請も行っており、廉価版の「Terra」や「Luna」ではなく最上位モデルのSolを最初にCerebras上で稼働させるという判断は、上場を控えたCerebrasへのOpenAIからの「お墨付き」としての意味合いも強い。価格はまだ公表されていないが、Sol自体のAPI料金がすでに入力100万トークンあたり5ドル・出力30ドルとされており、高速版はこれより高い価格帯になる可能性が高い。

実務への影響

これまでLLMの性能評価は精度やコンテキスト長が主戦場だったが、ここへきて「レイテンシ」そのものが単独の商品価値として売られ始めている。エンジニアやIT管理者にとって重要なのは、ベンチマークの数字を眺めることではなく、自分たちの実際のワークフローでエンドツーエンドのトークン/秒を計測する習慣を持つことだ。毎秒90トークンと750トークンの差は、単なる速度比較ではない。コーディングエージェントが4000トークンのプルリクエストを6秒で作るか、1分かけて作るかの違いであり、それはエージェントを対話ループの中でリアルタイムに使えるか、一晩バッチで回すしかないかという、ワークフロー設計そのものを左右する差になる。日本企業がAIエージェント導入を検討する際も、精度だけでなく「どれだけ低遅延で回せるか」を評価軸に加えるべきだろう。

筆者の見解

このニュースの本質は、OpenAIとCerebrasの契約金額の大きさよりも、推論速度そのものが競争軸になってきたという点にある。AIエージェントの価値は、人間の認知負荷をどれだけ減らせるかで決まる。逐一確認を求めながらゆっくり動くAIと、目的さえ伝えれば自律的にループを回して結果を返してくるAIとでは、体験としてまったく別物だ。そして自律的なループを気持ちよく回すには、応答速度がボトルネックにならないことが前提になる。その意味で、今回のCerebras採用やBroadcomとの二正面展開は、モデルの賢さの競争だけでなく「エージェントを止めない速度」の競争がいよいよ本格化した合図だと見ている。

日本のエンジニアにとっての教訓はシンプルだ。ベンダー各社の速度競争をニュースとして追いかけるだけでは何も変わらない。自分の手元のエージェントワークフローで実際にトークン/秒を測り、速度が上がったときにどこまで自律実行の範囲を広げられるかを、手を動かして試す。情報を追うより、実際に使って成果を出す経験を積むことが、今この分野で最も価値のある投資だと思う。


出典: この記事は OpenAI to run GPT-5.6 Sol on Cerebras at 750 tokens per second in July の内容をもとに、筆者の見解を加えて独自に執筆したものです。