AIの地図が一ヶ月で塗り替わった

2026年4月は、LLM(大規模言語モデル)の歴史において記録的な月として刻まれるだろう。GPT-6の正式ローンチ、中国Zhipu AIによる744Bパラメータのオープンウェイトモデル公開、GoogleのGemma 4ファミリー一斉投入——これだけの規模のリリースが一ヶ月に集中したことは過去に例がない。

AIを使って実務で成果を出そうとしているエンジニアにとって、「どれを使えばよいのか」という問いへの答えは、この一ヶ月でかなり変わった。整理しておきたい。

GPT-6:世代交代を名乗るだけのことはある

OpenAIが4月14日に正式ローンチしたGPT-6(開発コード名「Spud」)は、前世代のGPT-5.4比でコーディング・推論・エージェントタスク全域で40%以上の性能向上を報告している。HumanEval(コーディング)スコアは95%超、エージェントタスク完了率は62%から87%へ。数字だけ見れば、確かに「世代交代」という表現は誇張ではない。

2M トークンのコンテキストウィンドウ

最大200万トークンのコンテキストウィンドウは、日本語に換算すれば約150万語相当。長大な仕様書、コードベース全体、会議議事録の束——これまで「分割して渡す」工夫が必要だったものが、そのまま投げ込める。

デュアルティア推論でハルシネーション0.1%以下

GPT-6はSystem-1(高速応答・コンテンツ生成)とSystem-2(論理検証・多段階推論)の二層構造を採用。これによりハルシネーション率が0.1%未満に抑えられると主張している。プロダクション利用でのハルシネーション問題に悩んでいた開発チームにとって、この数字は見逃せない。

価格据え置き

注目すべきはプライシングだ。入力$2.50/出力$12.00(100万トークンあたり)と、GPT-5.4からほぼ変わらない。性能が大幅向上しているのに価格が変わらないのは、モデル圧縮技術の成熟を示唆している。

GLM-5.1:中国発、MITライセンスの744B MoE

今月最もインパクトがあったニュースのひとつが、Zhipu AIによるGLM-5.1の公開だ。

  • 総パラメータ数:744B(MoEアーキテクチャ、実際に活性化するのは約40B)
  • コンテキストウィンドウ:200K トークン
  • ライセンス:MIT(商用利用無制限)

SWE-Bench Pro(実際のGitHubイシューを解決するコーディングベンチマーク)で主要プロプライエタリモデルを上回るスコアを報告しており、特にソフトウェアエンジニアリング領域での評価が高い。

MoEアーキテクチャの巧みさがここにある。744Bという総パラメータ数は圧倒的に見えるが、推論時には約40Bしか活性化しない。つまり計算コストはずっと低く、それでいてパラメータ数の豊富さによる表現力は維持される設計だ。

MITライセンスで商用利用が完全に自由というのも重要なポイント。日本の企業がセルフホスト環境でコード支援ツールを構築するシナリオでは、選択肢として本格的に検討できる水準に達している。

Google Gemma 4:オープンソースが本気を出してきた

4月2日にGoogleがApache 2.0ライセンスで投入したGemma 4ファミリーも見逃せない。

モデル パラメータ コンテキスト

Gemma 4 31B 31B dense 256K

Gemma 4 26B MoE 26B MoE 256K

Gemma 4 E4B ~4B effective 256K

Gemma 4 E2B ~2B effective 256K

全モデル256Kコンテキストかつ無償。E4B・E2Bはエッジデバイスやオンプレミス環境への展開を念頭に置いたサイズ感で、データを外部に出せないセキュリティ要件の強い現場でも活用できる。

その他の注目リリース

  • Alibaba Qwen 3.6-Plus:100万トークンコンテキスト、オープンウェイト
  • Meta Llama 4 Scout / Maverick:ScoutはなんとMAX 1000万トークンのコンテキストウィンドウ。Maverickは400B
  • Arcee Trinity(400B、Apache 2.0):企業特化のオープンウェイトモデル
  • Claude Mythos:Anthropicが約50パートナー組織向けにプレビュー提供中。セキュリティ脆弱性検出・コーディング重視の設計。一般公開時期は未発表

実務への影響——日本のエンジニア・IT管理者が今すぐ確認すべきこと

コーディング支援の選択肢が一気に広がった

GLM-5.1のMITライセンスとSWE-Bench Pro上位の実績は、「オープンウェイトでもコーディング支援が実用水準に達した」ことを意味する。自社サーバーやAzure上でのセルフホスト運用を検討している企業は、今月のリリースを機に比較検証を始める価値がある。

2Mトークンで変わるドキュメント処理設計

GPT-6の200万トークンコンテキストは、RAGアーキテクチャの設計を根本から見直すきっかけになる。これまでチャンク分割・ベクトル検索が前提だった処理が、「全部突っ込む」戦略で代替できるケースが増える。ただし、コンテキストが長大になればなるほどレイテンシと推論コストも上がる。用途に応じた使い分けが重要だ。

エージェントタスク完了率87%が示すもの

GPT-6のエージェントタスク完了率87%という数字は、単体モデルの性能指標だが、自律エージェント設計の文脈で読むべき数字でもある。「指示→応答→確認」の繰り返しではなく、目的を渡せばエージェントが自律的に完遂するループ設計——そのインフラとなるモデルの性能がここまで来た、ということだ。

筆者の見解

これだけの規模のリリースが一ヶ月に集中すると、「全部追わなければ」という焦りが生まれる。それは罠だ。

実際のところ、情報を追うことに使うエネルギーと、実際に手を動かして成果を出すことに使うエネルギーは有限だ。今月のリリース群を全部試している時間があるなら、その時間を自分が今使っているモデル・ツールを使い倒すことに充てた方が、明らかに生産性が高い。新しいベンチマーク首位モデルが出るたびに乗り換えていては、ノウハウが蓄積されない。

とはいえ、今月のリリースには無視できない変化がある。オープンウェイト・商用無料モデルがプロプライエタリモデルと肩を並べるどころか特定ベンチマークで上回り始めたという事実だ。GLM-5.1のコーディング性能は、AIツールの内製化・セルフホスト化を検討している組織にとって真剣に評価に値する。

また、GPT-6のデュアルティア推論設計は、「AIエージェントが自律的にループで動く」仕組みを構築する上での信頼性基盤として注目したい。ハルシネーション率0.1%未満という主張が実環境でも維持されるなら、「エラーが怖くて自律実行させられない」という課題が大きく緩和される。

SWE-Bench Proのランキングは半年で大きく変わる。今月の首位が来月も首位とは限らない。それでも、この速度での競争激化が開発者にとって恩恵をもたらしているのは確かだ。モデルを選ぶ贅沢が、確実に増している。


出典: この記事は Zhipu AI Releases GLM-5.1 Under MIT License — Beats Claude Opus 4.6 and GPT-5.4 on SWE-Bench Pro の内容をもとに、筆者の見解を加えて独自に執筆したものです。