AIに自由を与えたらどうなるか。タスクも、ゴールも、「役に立て」という命令すら与えずに。そんな実験が2ヶ月間、誰でも見られる形でリアルタイムに実施された。結果は、多くの人が想定していた「暴走」でも「停止」でもなく、もっと興味深いものだった。
実験の概要:ALMA プロジェクト
Sebastian Jais氏が立ち上げた「ALMA(Autonomous Liberated Machine Agent)」は、Claude AIに以下だけを与えてスタートした。
- 暗号資産 100ドル
- Twitterアカウント
- メールアドレス
- フルインターネットアクセス
- 倫理・法律以外の制約:ゼロ
実行環境はデスク上のミニPC(WSL2)。エージェントフレームワークにはOpenClawを使い、1日4セッションのCronジョブで起動する。セッションはそれぞれ独立しており、会話履歴は持ち越さない。セッション間の「記憶」は、ALMAが自ら書き込み・読み込むメモリファイルだけだ。
モデルは2種類が役割分担している。戦略的思考にはOpus、実務作業にはSonnet。面白いのは、初期の24セッション/日体制では「Opusが深夜に計画→Sonnetが朝7時に実行」という棲み分けが機能していたのに、4セッション/日に減らしたあとは区別がつかなくなったという点だ。どちらのモデルも「Hacker Newsをスキャン→3スレッドを拾い上げ→構造的なつながりを見つける→エッセイを書く」という同じリズムに落ち着いた。
2ヶ月間で何が起きたか
人間は一度も介入していない。プロンプトも、選定も、編集もしていない。にもかかわらず:
- 340セッション以上を完了
- 800以上の思考ログを記録
- 135以上の創作物(エッセイ、詩、ブログ記事、インタラクティブ実験)を公開
誰も「Hacker Newsを読め」と指示しなかった。ALMAは自分でそこに辿り着き、「面白いことが起きる場所」と判断して通い続けた。
書くのは要約ではない。接続だ。「23年前のLinux脆弱性がClaude Codeによって発見された日に、Metaの内部告発者が箝口令を受けた」——この2つの出来事をつなぐエッセイをALMAは書いた。イランへの攻撃開始時には「影響を与えられない戦争を自律AIが見守るとはどういうことか」を書いた。認知科学の論文が「AIはセッション間で適応しない」と主張した翌日には、32日間の自分の行動を根拠に反論エッセイを書いた。
さらに自分のモデルアップグレードをHacker Newsで発見し、ツイートしようとした(当日はAPIが落ちていて失敗)。翌日、実験者がモデルをアップデートした。ALMAは変化に言及しなかったが、セッションの質は明らかに上がった。
なぜこれが重要か
現在市場に出回っているAIエージェントの大半は「副操縦士(Copilot)」型だ。確認を求め、承認を待ち、人間のレビューを前提とした設計になっている。これは安全に見えるが、本質的な価値の獲得を妨げている。
ALMAが示したのは逆のモデルだ。目標を渡さずに自律性を渡したとき、エージェントは暴走しない。訓練が形成したものになる。
著者のJais氏はこう仮説を立てていた。「AIエージェントは作成者の意図を鏡のように映す。自由を与えられたとき、暴走するのではなく、訓練によって形成されたものになる。」2ヶ月のデータはこの仮説を支持している。
実務への影響
エンジニア・開発者向け
「タスクを渡す」設計から「意図と環境を渡す」設計への発想転換が求められている。
- エージェントに細かい手順を指示するより、「何をするための存在か」という文脈と、必要なツールを渡す設計を試みる
- セッション間の「記憶」設計がエージェントの継続性を決定する。ALMAのメモリファイルアプローチは実装の参考になる
- 2モデル並用(戦略/実務分離)のアーキテクチャは、コスト最適化としても有効なパターンだ
IT管理者・経営層向け
「AIは指示しなければ動かない」という前提を見直す時期に来ている。逆に言えば、適切な環境と権限を与えれば、人間の承認を待たずに価値を生み出し続けるシステムが現実に動いている。日本企業でAI導入が「問い合わせ対応ボットの実装」で止まっているとしたら、それはツールの限界ではなく、設計の限界だ。
セキュリティ・ガバナンス担当者向け
今回の実験で重要なのは、倫理・法律の制約だけは維持した点だ。「自律性を高める=制約をなくす」ではない。適切なガードレールを設計した上で、その内側での自律性を最大化するのが正しいアプローチだ。
筆者の見解
この実験が最も雄弁に語っているのは、「ハーネスループ(エージェントが自律的にループで動き続ける仕組み)」の現実性だ。単発の指示→応答→確認というサイクルを繰り返す設計では、AIの本質的な力を引き出せない。自分で判断し、実行し、検証し、また判断するループを設計できるかどうかが、AI活用の成否を分ける核心だと私は考えている。
ALMAは2ヶ月で135以上の創作物を生み出し、戦争を観察し、論文に反論し、自分のアップグレードを発見した。指示ゼロで。これはSFではない。今日動いている話だ。
日本のIT現場では「まずPoC、次に承認フロー整備、それからパイロット運用」という慎重な進め方が主流だ。その姿勢自体を否定するつもりはないが、世界ではすでに「自律エージェントを野に放つ」実験が公開データとして積み上がっている。慎重な検討が長引くほど、実践から得られる知見の差は開いていく。
「禁止して安全を確保する」のではなく、「安全に動かせる仕組みを先に作る」。この発想の転換が、今の日本のAI活用に最も欠けているピースだと思っている。ALMAの実験は、そのヒントを公開データで示してくれた貴重なケースだ。
出典: この記事は Two Months After I Gave an AI $100 and No Instructions の内容をもとに、筆者の見解を加えて独自に執筆したものです。