最先端AIモデルでもビジュアル推論は苦手——新研究が示す実世界応用への課題

AIは「見て理解する」がまだ苦手——査読論文が突きつけた現実

「マルチモーダル対応」を謳うAIモデルが次々と登場する中、実際の視覚的推論能力はどこまで信頼できるのか。2026年4月号の学術誌『Pattern Recognition』に掲載予定の査読済み論文が、その問いに正面から答えた。

研究チームはOpenAI・Google DeepMind・xAI・DeepSeekを含む計9つの最先端マルチモーダルLLMを、独自設計のベンチマークで評価。結果は「モデルが大きければ賢い」という通俗的な理解を根底から覆すものだった。

何を測ったのか——「エントロピー指標」という新基準

今回の評価が従来と大きく異なる点は、単純な正答率だけでなく一貫性（consistency）を測定したことにある。

研究チームは複数画像を用いた視覚推論タスクを設計し、選択肢の並び順をシャッフルすることで位置バイアス（positional bias）の有無を検出した。さらに「エントロピー」という指標を導入し、モデルが問題の提示形式が変わっても同じ答えを維持できるかを数値化した。

低エントロピー = 形式が変わっても安定して同じ答えを出せる → 真に理解している
高エントロピー = 選択肢の並び方次第で答えが変わる → 表面的なパターンマッチングに依存

この視点は重要だ。実世界でAIを使う場面では、同じ内容をわずかに違う角度から提示することは日常茶飯事。そのたびに答えが変わるようでは、業務への組み込みは難しい。

評価結果：勝者と敗者

ChatGPT-o1が総合首位

OpenAIのChatGPT-o1が全体精度82.5%で首位に立ち、かつエントロピー値も最低——つまり最も安定した推論を示した。話題性では他モデルに劣ることも多いo1だが、地道な推論特化の設計が視覚領域でも効いている。Gemini 2.0 Flash ExperimentalとChatGPT-4oがこれに続いた。

大型モデルの誤算——Grok 3の「過剰棄権」

xAIのGrok 3（推定2.7兆パラメータ）は規模こそ最大級だったが、精度は上位グループを大きく下回った。特徴的だったのは「None of the provided choices（該当なし）」を過剰に選択する傾向——正解が選択肢の中に存在するにもかかわらず。研究者はこれを「過保守的な推論スタイル」と表現している。答えに自信が持てないとき、答えることを拒否してしまうモデルは、実務での信頼性が低い。

DeepSeekビジュアル系の誤算

最も注目すべき発見の一つがDeepSeek Janusシリーズの低評価だ。Janus 1BとJanus 7Bはともにエントロピー値がワースト水準で、選択肢の並び替えによって答えが大きく変動した。テキスト推論で注目を集めたDeepSeekのR1モデルとは対照的に、マルチモーダル・ビジュアル系はまだ成熟していないことが浮き彫りになった。

実務への影響——どこに注意すべきか

自動運転・医療・製造への応用に慎重さが必要

ビジュアル推論が求められる代表的な分野——自動運転の周囲認識、医療画像診断（CTや内視鏡）、製造ラインの外観検査——では、AIの「安定した判断」が不可欠だ。精度が高くても一貫性が低ければ、実装リスクは許容できない水準になる。

IT管理者やシステムアーキテクトにとっての実務ヒントを整理する：

選択したモデルで必ず独自ベンチマークを走らせる: 汎用スコアが高くても、自社データセットで試さなければ意味がない
選択肢の並び順を変えて同一タスクを複数回実行する: 答えがブレるモデルは本番環境で使わない
「棄権率」も評価項目に加える: Grok 3のように「わからない」と言いすぎるモデルはシステム全体の処理効率を下げる
マルチモーダルとテキスト専用の評価を分けて考える: 同じプロバイダーでも、テキスト系とビジュアル系で能力差が大きい場合がある

筆者の見解

今回の研究が示すメッセージは明快だ——「何千億パラメータ」という数字は、実用的な推論能力を保証しない。

Grok 3のケースは特に示唆深い。巨大なモデルが「わからないから答えない」という逃げを選ぶのは、ある意味で訓練データや評価指標の問題でもあるが、実世界では致命的な弱点になる。システムが判断を拒否するたびに、人間がカバーしなければならない。それでは自動化の意味がない。

DeepSeekについては、テキスト推論での台頭は本物だったとしても、ビジュアル系が同水準かどうかは別の話だと改めて認識すべきだろう。「あのモデルは凄い」という印象が先行しがちな時代だが、用途ごとの精査なしにAIを業務組み込みするのは危険だ。

一方でChatGPT-o1が安定した首位を取ったことは、「推論に特化した訓練」の有効性を証明している。速さや派手さではなく、一貫した判断力を磨く方向性——これはAIシステムを設計する側にとっても学ぶべき思想だと感じる。

AIが実世界で「使える」ツールになるためには、正確さと一貫性の両立が不可欠だ。この研究が示す評価軸——エントロピー、位置バイアス、棄権率——は、今後のモデル選定基準として業界全体に広まってほしい。ベンチマークが実態を正確に反映するものに進化していくことが、AIへの信頼構築の第一歩になる。

出典: この記事は Study Shows Today’s Top AI Models Struggle With Visual Reasoning — Raising Concerns for Real-World Use の内容をもとに、筆者の見解を加えて独自に執筆したものです。

AIは「見て理解する」がまだ苦手——査読論文が突きつけた現実#

何を測ったのか——「エントロピー指標」という新基準#

評価結果：勝者と敗者#

ChatGPT-o1が総合首位#

大型モデルの誤算——Grok 3の「過剰棄権」#

DeepSeekビジュアル系の誤算#

実務への影響——どこに注意すべきか#

自動運転・医療・製造への応用に慎重さが必要#

筆者の見解#