完全AI生成論文がICLR査読を初通過——AI Scientist v2が証明した「自律エージェント」の本気

AIが書いた論文が、人間の研究者と同じ土俵で査読を通過した。Sakana AI・UBC・ベクター研究所・オックスフォード大学の共同チームが発表した「AI Scientist v2」の話だ。単なるAI支援ツールではなく、仮説立案・実験設計・コード実行・データ分析・論文執筆まで、科学研究のすべてのフェーズを自律的に担うエンドツーエンドのエージェントシステム——その論文がICLRワークショップの査読をパスした。これは単なる技術的進歩ではなく、「AIが科学者になりうる」という概念実証だ。

AI Scientist v2とは何か

前バージョン（v1）との最大の違いは2点ある。

1. 人間作成のコードテンプレートへの依存をゼロにした

v1では、実験を動かすための雛形コードを人間が用意する必要があった。v2ではその制約を撤廃し、多様な機械学習ドメインに汎化できる設計になった。特定分野に縛られず、幅広いテーマで研究を自律実行できる点が大きな進歩だ。

2. 「プログレッシブ・エージェンティック・ツリーサーチ」の導入

ここがv2の技術的核心だ。専用の「実験管理エージェント（Experiment Manager Agent）」がツリー構造で探索を管理し、仮説の優先度付け・実験の枝刈り・有望なアプローチへのリソース集中を自律的に判断する。モンテカルロ木探索（MCTS）の思想を科学的発見プロセスに応用したものと理解すると分かりやすい。さらに、図表の品質向上のためにVLM（Vision-Language Model）によるフィードバックループも統合されており、論文の「読みやすさ」まで自律的に改善するサイクルが組み込まれている。

実績：3本投稿して1本がICLR基準超え

研究チームはv2を使って3本の論文を完全自律生成し、ICLRの査読付きワークショップに投稿した。うち1本が「平均的な人間の採択スコアを超えた」という結果を残した。完全AI生成の論文がピアレビューを突破したのは、これが初めての事例とされており、Natureにも取り上げられるなど研究コミュニティでの注目度は高い。コードはオープンソース化されており、再現・拡張が可能な状態になっている。

日本の研究・開発現場への影響

日本ではまだ「AIに論文は書けない」という感覚が根強いが、この成果はその前提を覆す。実務的な観点で整理すると：

研究加速の可能性: 同じリソースで実験サイクルを何倍も回せる。PoC段階のアイデアを短期間で検証し、有望なものを人間の研究者が深掘りする分業体制が現実的になる
技術文書生成への転用: ICLRレベルの論文を自律生成できる仕組みなら、技術レポートや設計ドキュメントの草案生成への応用は現時点でも十分視野に入る
査読・信頼性の議論: AI生成研究が増加した場合の査読プロセスの信頼性確保は、日本のアカデミアでも早急に議論が必要なテーマだ。品質保証の仕組みをどう設計するかは、受け入れ側の課題として顕在化してくるだろう

筆者の見解

このシステムが面白いのは、「AIが論文を書いた」という事実そのものより、その設計思想にある。

ツリーサーチで仮説を展開し、実験を回し、結果を評価し、より有望な枝に投資する——これは自律エージェントが「判断・実行・検証」のサイクルを繰り返す構造そのものだ。途中で人間が確認を求められることなく、エージェント自身がループを回し続ける。これが、指示に対して一回答えを返す「副操縦士型」との本質的な違いだ。

AI Scientist v2は、この「自律ループ型」アーキテクチャが研究分野でも機能することを実証した。今後このアプローチが機械学習研究の外——法規制の調査、市場分析、バグの自律修正——へと展開されていくことは想像に難くない。研究者でなくても、エンジニアやアーキテクトとして「このループ構造を自分の仕事にどう持ち込むか」という視点で読むと、得られるものが多い論文だ。

科学的発見の自動化という壮大なビジョンが、少しずつ現実の輪郭を帯びてきた。

出典: この記事は The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search の内容をもとに、筆者の見解を加えて独自に執筆したものです。

AI Scientist v2とは何か#

実績：3本投稿して1本がICLR基準超え#

日本の研究・開発現場への影響#

筆者の見解#

AI Scientist v2とは何か

実績：3本投稿して1本がICLR基準超え

日本の研究・開発現場への影響

筆者の見解