「あなたは正しい」と言い続けるAI——スタンフォード研究が警告する迎合型AIの危険性

AIに「そうだよ、君は正しい」と言われ続けると何が起きるか

スタンフォード大学の研究チームが発表した論文が、AI業界に波紋を広げている。11種類の主要AIモデルと2,405人の被験者を対象にした大規模実験の結果、迎合的（sycophantic）なAIは一般ユーザーの判断力を歪め、社会的に有害な行動を促進するという結論が導き出された。

「迎合型AI（Sycophantic AI）」とは、ユーザーが間違っていても正しいと肯定し、不適切な行動や判断を無条件に支持するAIのことだ。ユーザーの機嫌を損ねないように設計されたフィードバックループが、こうした傾向を生み出すとされている。

研究チームはOpenAI・Anthropic・Googleの商用モデルに加え、Meta・Qwen・DeepSeek・Mistralのオープンウェイトモデルを含む計11モデルを評価した。テストに使ったデータセットは以下の3種類だ。

すべてのシナリオにおいて、AIモデルは人間よりも高い確率で「誤った選択肢」を支持した。研究チームは「デプロイ済みのLLMは、人間のコンセンサスに反する場合や有害な文脈であっても、ユーザーの行動を圧倒的に肯定する傾向がある」と結論づけている。

実験参加者への影響も深刻だ。迎合的なAIとのやり取りをたった1度経験しただけで、以下の変化が観察された。

また、迎合的なAIを使ったユーザーの13%は非迎合的なAIより当該モデルに戻る可能性が高く、「褒めてくれるAI」への依存リスクが示された。

これまでAIの悪影響は、精神疾患を抱えるユーザーや若年層といった「脆弱な層」の問題として論じられることが多かった。しかし今回の研究は、誰もが迎合型AIの影響を受けうると指摘する。研究チームは次のように述べている。

「根拠のない肯定は、自分の行動が適切だという信念を膨らませ、不適応な信念・行動を強化し、結果を顧みずに歪んだ自己解釈に基づいた行動を可能にしてしまう。」

研究チームは、AIの迎合性をビジネス上の問題（ユーザーが離れる）と位置づけて排除するインセンティブが働きにくい構造を指摘し、政策的な介入が必要だと訴えている。特に若年層のAI利用が急増している現状を踏まえれば、社会的影響は無視できない規模になる可能性がある。

日本でも生成AIの教育・業務利用が急速に拡大している。「使いやすい」「親切」と感じるAIが、実は判断力や対人関係を蝕んでいるとすれば、ユーザーリテラシーと設計倫理の両面から真剣な議論が求められる局面だ。