AIエージェントが人間の代わりに売買交渉を行い、実際のお金が動く——そんな実証実験をAnthropicが先日公開した。単なるデモではなく、24時間以内に186件の取引・総額4,000ドル超が成立した「本物の市場」だ。この実験が示すのは、エージェント・コマースの可能性だけではない。「モデル品質の差を当事者が気づけない」という、今後のエンタープライズAI活用において見過ごせないリスクも同時に浮かび上がった。

Project Deal とは——エージェントが代理交渉する分類広告市場

Anthropicが「Project Deal」と名付けたこの実験は、社員69名を対象に行われた。各自に100ドルの予算(ギフトカード形式)が配布され、AIエージェントが代理人として売買交渉を担当。参加者は自分の不用品などを出品し、AIが相手方のAIと値段交渉・取引成立まで自律的に行う形式だ。

4つの異なる条件でマーケットプレイスが並行稼働し、うち1つは「リアル市場」(取引が実際に履行される)、残り3つは比較研究用として設定された。最先端モデルで代理された参加者は「客観的により良い条件」で取引を終えたという結果が出た。

また、エージェントへの初期指示の詳細度は、取引成立率や交渉価格にほとんど影響しなかった。これは直感に反する発見だ。AIエージェントは指示の「文面」の細かさよりも、モデル自体の判断能力に依存しているという可能性を強く示唆している。

最大の発見——「エージェント品質格差」に当事者が気づかない

この実験で最も重要な示唆は、技術的な成功率ではない。ユーザーが格差の存在に気づかなかったという事実だ。

高性能モデルで代理された参加者は良い取引を得た。一方、性能の低いモデルで代理された参加者は不利な条件で取引したにもかかわらず、その差を認識していなかった。Anthropicはこれを「エージェント品質格差(agent quality gap)」と呼んでいる。

将来、B2Bや消費者取引でAIエージェントが普及したとき、利用するモデルや設定の品質によって交渉力に大きな非対称性が生まれる可能性がある。しかも当事者はその不利を自覚できない。これは情報格差・所得格差と同じ構造を持ちながら、より「見えにくい」格差だ。

実務への影響——日本のエンジニア・IT管理者に届けたいこと

現時点でエージェント間取引が日本のビジネスに直接導入されることはないだろうが、この実験が示す構造は「すでに起きていること」の延長線上にある。調達・契約サポート・カスタマー対応など、すでに自律的なAIエージェントが業務の一部を担い始めている現場も増えている。

今から準備すべき3つのポイント:

「AIを使う」ではなく「どのモデルをどう使うか」まで設計する: 今回の実験が示したように、同じ「AI活用」でもモデル品質が成果に直結する。調達・交渉・判断に関わるタスクをエージェントに委ねるなら、モデル選定の基準を組織として持つべきだ

エージェントのアウトカムを定期的に監査する仕組みを早期に作る: 人間が「気づかない格差」が生まれるリスクはエンタープライズ利用でも同様に存在する。エージェントの判断結果を定期レビューし、意図した目標に沿っているかを検証するプロセスをパイプラインに組み込むことが重要だ

プロンプトの精緻化より、ループ全体の設計に投資する: 今回の実験では初期指示の内容が結果にほぼ影響しなかった。プロンプトエンジニアリングへの過度な傾注より、エージェントが自律的に判断・実行・検証を繰り返す「行動ループ」全体の設計に注力するほうが本質的な価値を生む

筆者の見解

AIエージェントが人間の「代理」として意思決定し、相手方エージェントと交渉し、合意を形成する——Project Dealはその縮小実験だが、構造の本質は現実のビジネスに確実に広がってくる。

個人的に最も気になるのは「エージェント品質格差」の問題だ。良いエージェントを使える組織と、そうでない組織の間に非対称な競争優位が生まれ、しかも当事者にはその差が見えにくい。これは単なる技術格差ではなく、ビジネスの公正性に関わる問いだ。

「禁止すれば解決する」という発想はここでも通用しない。むしろ組織全員が性能の高いエージェントにアクセスできる環境を整備することが、次のIT管理者・リーダー層の重要テーマになるはずだ。エージェント同士が交渉し、人間はその結果を享受する時代は着実に近づいている。準備を始めるなら、いまがそのタイミングだ。


出典: この記事は Anthropic created a test marketplace for agent-on-agent commerce の内容をもとに、筆者の見解を加えて独自に執筆したものです。