Alibaba CloudがQwen3.7-Maxを発表：35時間自律実行・1,000回超ツール呼び出しのAIエージェント専用モデル

Alibaba CloudのQwenチームは2026年5月20日、自律エージェントタスクに特化した大規模言語モデル「Qwen3.7-Max」を発表した。コーディング、オフィス自動化、長時間タスクの連続実行を主要ユースケースとして設計されており、人間の介入なしに最大35時間にわたる自律実行を実証している。

Qwen3.7-Maxとは何か

Qwen3.7-Maxは、従来のチャット型AIから「計画→推論→実行」を自律的にこなすエージェント型AIへのパラダイムシフトを体現するモデルだ。Alibaba Cloud Model Studio経由でAPI提供されており、複数のエージェントフレームワークとの連携をサポートしている。

注目すべきは対応フレームワークの顔ぶれだ。AnthropicのClaude Code、OpenClaw、そしてQwen Code（自社製）が明示的にサポートされている。このことは、Qwen3.7-Maxが単体で完結するモデルというより、既存のエージェントハーネスのバックエンドとして組み込まれることを前提とした設計思想を示している。

ビジョン入力に対応したコンパニオンモデル「Qwen3.7-Plus」も同時リリースされており、スクリーンショットや図表を含むワークフローへの応用が期待される。

性能ベンチマーク

Qwenチームが公表した数値は以下の通りだ。

コーディング系

SWE-Pro: 60.6
SWE-Multilingual: 78.3
Terminal Bench 2.0-Terminus: 69.7

推論系

GPQA Diamond: 92.4
HMMT 2026 Feb: 97.1

エージェント系

MCP-Mark: 60.8
MCP-Atlas: 76.4
Artificial Analysis Intelligence Index: 56.6

コーディング・推論の両分野でトップクラスのスコアを記録している。SWE系のスコアは実際のGitHubリポジトリ規模のコード変更タスクへの実用性を示す指標として、業界で参照されているものだ。ただし、これらはQwenチーム自身による発表数値であり、独立した第三者検証が追って求められる。

35時間自律実行という実証

最も注目すべきは、カーネル最適化タスクにおける35時間・1,000回超のツール呼び出しという実証結果だ。この実行によりリファレンス実装比10倍の速度向上を達成したとQwenチームは述べている。

従来のAIモデルは数分〜数十分のタスク処理が現実的な上限だった。35時間という継続実行時間は、ソフトウェア開発における複雑な最適化や大規模リファクタリングといった、人間エンジニアが数日かけて取り組む種類のタスクに踏み込んでいることを意味する。

Model Context Protocol（MCP）の活用により、コードエディタ・ターミナル・ファイルシステム・外部サービスを統合した複雑なワークフローを単一のエージェントループで処理するアーキテクチャが実現されている。

実務への影響

コーディング業務への応用

SWE系のベンチマーク結果から判断すると、バグ修正・機能実装・リファクタリングといった実務レベルの作業に実用的な水準に達している可能性がある。Claude Codeのハーネスとの連携がサポートされているため、既存の開発環境にバックエンドとして組み込む形での試用が技術的に可能だ。

MCP連携によるオフィス自動化

MCPサポートにより、メール処理・ドキュメント生成・データ集計といったオフィス業務の自動化パイプラインをエージェント主導で構築できる。Microsoft 365を基盤とする環境でも、Graph APIをMCPツールとして組み込んだ自律エージェントの構築に応用できるアーキテクチャだ。

エンタープライズ導入の現実的なハードル

Alibaba Cloud Model Studioを通じた提供となるため、日本企業が採用する場合はデータ主権・コンプライアンス・セキュリティ審査が必要になる。金融・医療・製造業で機密情報を扱うワークフローへの適用は慎重な評価が求められる。まずは社外秘情報を含まない開発系ワークフローでの検証から始めるのが現実的な進め方だろう。

筆者の見解

Qwen3.7-Maxの発表で筆者が最も注目したのは、「35時間自律実行」という数字そのものよりも、Claude Codeのハーネスとの連携を明示的にサポートしている設計方針だ。

これは偶然ではない。AIエージェントの世界では今、モデルとハーネスが分離し、「どんなループを設計するか」というハーネス側の設計こそが競争優位になるフェーズに入っている。Qwen3.7-Maxが「自前のハーネスを使え」ではなく「実績あるハーネスに載せてくれ」という姿勢を取っているのは、理にかなった戦略だと思う。

長時間の自律実行が標準になっていく中で、エンジニアに求められるスキルは変わる。「AIに指示を出し続ける」ではなく、「どんなループを設計し、どんな成功条件と停止条件を定義するか」という設計力の方が、プロンプトの巧みさよりも重要になる。35時間動き続けるエージェントを「どう評価し、どこで止めるか」を決める能力が問われる時代はすぐそこまで来ている。

日本のIT現場ではAIエージェントの自律実行に対する不安感が依然として強い。頻繁な人間確認を挟みたいという心理は理解できるが、設計段階での安全性の作り込みと適切なログ・ロールバック機構が本来の解答であって、人間介入の頻度を増やすことは解答にならない。Qwen3.7-Maxのような自律特化型モデルが複数登場してきたことは、この方向性が正しいことの傍証でもある。

モデルの優劣はベンチマーク競争の中で常に動く。今エンジニアが磨くべきなのは「何をさせるか」よりも「どう動かし、どう検証し、どう止めるか」の設計力だ。

出典: この記事は Qwen3.7-Max: New AI Model Designed for Autonomous Agent Tasks の内容をもとに、筆者の見解を加えて独自に執筆したものです。

Qwen3.7-Maxとは何か#

性能ベンチマーク#

35時間自律実行という実証#

実務への影響#

コーディング業務への応用#

MCP連携によるオフィス自動化#

エンタープライズ導入の現実的なハードル#

筆者の見解#