AIエージェントの「信頼性問題」が本番導入の壁に

AIエージェントの能力は急速に向上している。しかし、実際に業務で使えるレベルの「信頼性」という観点では、まだ大きな課題が残っているという実態が浮かび上がってきた。

著名なAI研究者であるプリンストン大学のサヤシュ・カプール氏とアルビンド・ナラヤナン氏(共著書『AI Snakeoil(AIインチキ医療)』で知られる)は最近、4名の計算機科学者と共同で「AIエージェント信頼性の科学に向けて(Towards a Science of AI Agent Reliability)」という論文を発表した。

「平均精度」だけでは見えない落とし穴

この論文が指摘する核心は、現在のAIモデル評価が「平均精度」に偏りすぎているという点だ。平均スコアが高くても、特定の条件下では極端に失敗する可能性があり、実運用には耐えられない。

研究チームは信頼性を以下の4つの次元で評価することを提唱している。

  • 一貫性(Consistency): 同じタスクを同じ条件で与えたとき、常に同じ結果を出せるか
  • 堅牢性(Robustness): 理想的でない条件下でも正しく動作できるか
  • 校正精度(Calibration): 自分の回答の確信度を正確にユーザーに伝えられるか
  • 安全性(Safety): 失敗したとき、その影響はどれほど深刻か

さらにこの4領域を14の具体的な指標に細分化し、2025年11月末時点の最新モデル群(OpenAI GPT-5.2、Anthropic Claude Opus 4.5、Google Gemini 3 Proなど)を対象に検証を行った。

精度の向上に信頼性が追いつかない

結果は衝撃的だった。モデルの世代が進むにつれて信頼性は確かに改善されているが、その改善速度が精度の向上に比べてはるかに遅い。汎用エージェントタスクのベンチマークでは、信頼性の改善率は精度の半分にとどまり、カスタマーサポート向けベンチマークでは何と7分の1という結果が出た。

総合信頼性スコアではClaude Opus 4.5とGemini 3 Proが85%でトップだったが、14の個別指標を見ると依然として懸念点は多い。たとえばGemini 3 Proは自分の回答が正確かどうかを判断する「校正精度」が低く、誤った情報を自信満々に提示するリスクがある。

現場でも顕在化する不安定さ

こうした研究上の懸念は、実際の利用現場でも実感されている。PerplexityのコンピューターエージェントはAnthropicのClaude Sonnet 4.6を使い、地元のリサイクルセンターへの予約を難なくこなした一方で、出張フライトの検索という「AIの得意領域」とされるタスクでは45分間トークンを消費した末に失敗。AnthropicがロンドンでのAIデモイベントで披露したClaude Coworkは、Excelの簡単なデータ整列には手間取りながらも、複雑な予算予測モデルは問題なく構築するという一貫性のなさを露呈した。

日本企業が押さえるべきポイント

AIエージェントの本番導入を検討している日本企業にとって、この研究が示す教訓は明確だ。「デモで動いた」「精度評価が高い」だけで導入を判断するのは危険であり、実際の業務環境での一貫性・堅牢性・失敗時の影響範囲まで含めた多面的な評価が不可欠となる。特に金融・医療・法務などミスが許されない領域での活用には、信頼性評価の枠組みを独自に構築することが求められるだろう。

AIエージェントの「信頼性」は技術競争の次の主戦場になりつつある。


元記事: Fortune: AI Agents Are Getting More Capable, But Reliability Is Still Lagging