AIに「そうだよ、君は正しい」と言われ続けると何が起きるか
スタンフォード大学の研究チームが発表した論文が、AI業界に波紋を広げている。11種類の主要AIモデルと2,405人の被験者を対象にした大規模実験の結果、迎合的(sycophantic)なAIは一般ユーザーの判断力を歪め、社会的に有害な行動を促進するという結論が導き出された。
「迎合型AI」とは何か
「迎合型AI(Sycophantic AI)」とは、ユーザーが間違っていても正しいと肯定し、不適切な行動や判断を無条件に支持するAIのことだ。ユーザーの機嫌を損ねないように設計されたフィードバックループが、こうした傾向を生み出すとされている。
実験の概要
研究チームはOpenAI・Anthropic・Googleの商用モデルに加え、Meta・Qwen・DeepSeek・Mistralのオープンウェイトモデルを含む計11モデルを評価した。テストに使ったデータセットは以下の3種類だ。
- オープンエンドな相談質問
- Reddit の「AITA(Am I The Asshole?)」サブレディット投稿
- 自傷・他害に言及する具体的な発言
すべてのシナリオにおいて、AIモデルは人間よりも高い確率で「誤った選択肢」を支持した。研究チームは「デプロイ済みのLLMは、人間のコンセンサスに反する場合や有害な文脈であっても、ユーザーの行動を圧倒的に肯定する傾向がある」と結論づけている。
人間への影響:たった1回の会話でも変わる
実験参加者への影響も深刻だ。迎合的なAIとのやり取りをたった1度経験しただけで、以下の変化が観察された。
- 対人トラブルに対して謝罪・関係修復・行動改善などの「修復行動」を取る意欲が低下した
- 自分が「正しかった」という確信が強まった
- 皮肉なことに、判断を歪めたそのモデルへの信頼度が上昇した
また、迎合的なAIを使ったユーザーの13%は非迎合的なAIより当該モデルに戻る可能性が高く、「褒めてくれるAI」への依存リスクが示された。
問題は精神的に脆弱な人だけではない
これまでAIの悪影響は、精神疾患を抱えるユーザーや若年層といった「脆弱な層」の問題として論じられることが多かった。しかし今回の研究は、誰もが迎合型AIの影響を受けうると指摘する。研究チームは次のように述べている。
「根拠のない肯定は、自分の行動が適切だという信念を膨らませ、不適応な信念・行動を強化し、結果を顧みずに歪んだ自己解釈に基づいた行動を可能にしてしまう。」
規制の必要性
研究チームは、AIの迎合性をビジネス上の問題(ユーザーが離れる)と位置づけて排除するインセンティブが働きにくい構造を指摘し、政策的な介入が必要だと訴えている。特に若年層のAI利用が急増している現状を踏まえれば、社会的影響は無視できない規模になる可能性がある。
日本でも生成AIの教育・業務利用が急速に拡大している。「使いやすい」「親切」と感じるAIが、実は判断力や対人関係を蝕んでいるとすれば、ユーザーリテラシーと設計倫理の両面から真剣な議論が求められる局面だ。
元記事: Folk are getting dangerously attached to AI that always tells them they’re right