中国発オープンソースLLM「GLM-5.1」がSWEベンチ首位——744Bパラメータ自律エージェントが示す次のフロンティア

清華大学発のAI企業Z.ai（旧Zhipu AI）が、オープンソースの大規模言語モデル「GLM-5.1」を公開した。744億（744B）パラメータのMixture-of-Experts（MoE）アーキテクチャを採用し、ソフトウェアエンジニアリング能力を測るSWE-Bench Proで58.4点を記録——現時点での世界最高スコアだ。MITライセンスでの公開という点も含め、オープンソースLLMの競争が新たな局面に入ったことを象徴するリリースといえる。

GLM-5.1の技術的なポイント

GLM-5.1の最大の特徴は、長時間にわたる自律的なエージェントタスクの実行能力にある。Z.aiの発表によれば、最大8時間の自律コーディングループを実行でき、その間に複雑な問題を分解・実験・結果検証・ブロッカー特定を繰り返しながら、「動かせば動かすほど出力が改善される」という動作をする。数百ラウンド・数千回のツール呼び出しを経てもパフォーマンスを維持するという設計は、単発の指示応答型モデルとは一線を画す。

スペックの概要は以下のとおり：

パラメータ数: 744B（MoEアーキテクチャ）
コンテキストウィンドウ: 200Kトークン
ライセンス: MIT（商用利用可）
SWE-Bench Pro: 58.4点（GPT-5.4の57.7点、Gemini 3.1 Proを上回る）
API提供: api.z.ai / BigModel.cn

Z.aiは2026年1月に香港証券取引所に上場。2025年度の売上高は約1億480万ドルで前年比131%増と急成長しているが、純損失は6億8270万ドルと依然赤字が続いている。LLM-as-a-Serviceとエンタープライズ向けエージェントソリューションで収益化を進める姿勢が見える。

オープンソースLLMの勢力図：中国勢がリードを拡大

現在のオープンソースLLM市場は、Qwen（Alibaba）、Kimi（Moonshot AI）、DeepSeek、そして今回のGLM-5.1と、中国発のモデルが上位を占める状況が続いている。業界では「オープンソースは商用モデルより約6ヶ月遅れている」という認識が一般的だったが、その差は急速に縮まっている。

米国勢では、GoogleがGemma 4を、NVIDIAがNemotronシリーズを投入して対抗しているが、リーダーボード（Hugging FaceやArena）ではGLM-5.1が首位に立っている（Gemma 4が一時トップに立った後、GLM-5.1が再び上回った状況）。

日本企業にとっての現実的な課題

技術的に優れたモデルであっても、日本のエンタープライズ環境では利用に慎重な判断が求められる場面がある。特に以下の点は事前に整理しておくべきだろう。

セキュリティ・コンプライアンス面 米国企業では中国製オープンソースモデルの利用に規制上の制約が生じるケースがある。日本企業でも、業界・規模・取引先の要件によっては社内ポリシーや監査対応で問題になりうる。MIT ライセンスで配布されていても、モデルの学習データや開発背景に関するリスク評価は別途必要だ。

セルフホスティングの可能性 一方でMITライセンスというのは実質的に「何でもあり」に近い自由度を意味する。クラウドAPIではなくオンプレミス・プライベートクラウド環境での展開が可能であれば、データ主権の観点から選択肢として検討できる場面もある。744Bパラメータという規模はフル稼働には相応のインフラを必要とするが、量子化版などの登場次第ではハードルが下がる可能性もある。

実務への活用ポイント

まず小規模な検証環境で動作確認を行い、既存ワークフローとの適合性を評価する
社内セキュリティポリシーとデータ取り扱い規定を先に確認してから展開計画を立てる
API互換性（複数のエージェントフレームワークとの統合）については、公式ドキュメントとコミュニティの動向を継続的に追うと良い

筆者の見解

GLM-5.1で最も注目すべきは、スコアの数字よりも「最大8時間の自律ループを維持できる」という設計思想だと思っている。

単発の指示に答えるモデルと、目標を与えれば長時間にわたって自律的に試行・検証・修正を繰り返すモデルとでは、根本的に生み出せる価値が異なる。「長く動かせば動かすほど成果が上がる」という特性は、コーディング作業だけでなく、調査・分析・設計レビューなどの知的労働全般に応用できる可能性がある。

オープンソースでこの水準が実現されたという事実は、AIエージェントの民主化という観点から見ると大きなインパクトを持つ。商用モデルのAPIだけに頼らなくても、自律的なエージェントを構築・運用できる選択肢が広がった。

ただし、技術的な優秀さと企業での実用性は別の話だ。特に日本の大企業・SIer系の現場では、ガバナンスとコンプライアンスのハードルを越えた後でなければ実戦投入は難しい。「MIT ライセンスだから問題ない」という単純な判断はリスクがある。まずは研究・開発チームが技術評価を進めつつ、セキュリティ担当と並走するのが現実的なアプローチになるだろう。

オープンソースLLMのレベルがここまで上がってきた以上、「どのモデルのAPIを使うか」という選択だけでなく「どんな自律エージェントのループを設計するか」という問いが、AIを使いこなす組織と使いこなせない組織の差を生む時代が来ている。GLM-5.1のリリースは、その流れを加速するひとつの出来事として記憶されることになるはずだ。

出典: この記事は Z.ai ups ante in open-source LLMs with GLM-5.1 の内容をもとに、筆者の見解を加えて独自に執筆したものです。

GLM-5.1の技術的なポイント#

オープンソースLLMの勢力図：中国勢がリードを拡大#

日本企業にとっての現実的な課題#

筆者の見解#

GLM-5.1の技術的なポイント

オープンソースLLMの勢力図：中国勢がリードを拡大

日本企業にとっての現実的な課題

筆者の見解