NISTがDeepSeek V4 Proを独立評価——フロンティアモデルとの能力差「約8カ月」、ベンチマーク汚染の実態も浮き彫りに

米国国立標準技術研究所（NIST）傘下のAI評価機関「CAISI（Center for AI Standards and Innovation）」が、DeepSeekの最新オープンウェイトモデル「DeepSeek V4 Pro」の独立評価を2026年4月に実施し、5月に結果を公開した。規制当局レベルの政府機関が中国製AIモデルを公式かつ独立した形で評価・公表した事例はこれが初めてとなり、AI能力評価のガバナンスという観点からも大きな注目を集めている。

CAISIとはどういう機関か

CAISIはNISTが設置したAI標準・イノベーションセンターで、米国政府の立場からAIモデルの能力を独立して評価する役割を担う。今回の評価はサイバーセキュリティ・ソフトウェアエンジニアリング・自然科学・抽象推論・数学の5領域にわたる9ベンチマークを使用した。

特に重要なのが、公開済み標準ベンチマークに加えて非公開ベンチマークを用いている点だ。具体的にはARC-AGI-2の準非公開データセットと、CAISI内製のソフトウェアエンジニアリング評価ツール「PortBench」が使われた。これにより、事前学習データへの問題混入（ベンチマーク汚染）による評価の歪みを排除できる。

独立評価の結果：能力差は「約8カ月」

CAISIの独立評価では、DeepSeek V4 Proの総合能力は現在のフロンティアモデルより約8カ月遅れていると結論付けられた。主要ベンチマークの比較は以下の通りだ。

ベンチマーク GPT-5.5 Anthropic Opus 4.6 DeepSeek V4 Pro

SWE-Bench Verified（SE） 81% 79% 74%

PortBench（内製SE評価） 78% 60% 44%

ARC-AGI-2（抽象推論） 79% 63% 46%

GPQA-Diamond（自然科学） 96% 91% 90%

数学系（AIME/PUMaC/SMT）〜98% 〜94% 〜96%

数学領域では米国トップモデルに肉薄する高スコアを記録している一方、抽象推論（ARC-AGI-2）と内製SE評価（PortBench）では大幅な差が開いている。総合能力を示すIRT推定EloスコアはGPT-5.5が1260に対してDeepSeek V4 Proは800と、GPT-5.4 mini（749）に近い位置に評価された。

自己申告と独立評価の乖離——ベンチマーク汚染の問題

今回の評価で特に注目すべきが、DeepSeek自身の公式発表とCAISIの独立評価との乖離だ。

DeepSeekの公式データによれば、V4 Proの能力はOpus 4.6やGPT-5.4（約2カ月前リリース）と同等とされている。しかしCAISIの独立評価（非公開ベンチマーク込み）では、約8カ月前にリリースされたGPT-5相当という結論になった。

この乖離の主要因として指摘されるのがベンチマーク汚染だ。事前学習データに公開ベンチマークの問題と回答が含まれていると、そのベンチマークでは実際の能力より高いスコアが出る。公開ベンチマークのみを使った評価では、この汚染の影響を排除できない。CAISIが非公開問題を含むベンチマークを採用した意義がここにある。

コスト効率では競争力あり

能力面にギャップがある一方、コスト効率ではDeepSeek V4 Proは一定の競争力を持つとCAISIは評価している。最もコスト競争力のある米国モデル（GPT-5.4 mini）と比較した7ベンチマークのうち5つでDeepSeek V4 Proが上回り、コスト差の幅は「53%安〜41%高」と場合によるが、総じてコストパフォーマンスでは健闘している。

実務への影響：日本のエンジニア・IT管理者が知っておくべきこと

独立評価指標がAI調達判断の根拠になる

今回のCAISIレポートが実務上の重要性を持つのは、第三者機関による独立評価が公開文書として参照可能になった点だ。AI導入を検討する日本企業のIT部門が調達・ベンダー選定の根拠として、ベンダーの自己申告を超えた信頼性の高い比較基準を手にしたことを意味する。

中国製モデル利用時のリスク評価

DeepSeekを含む中国製モデルを業務利用する際は、技術的な能力評価に加えて情報セキュリティとデータ主権の観点が欠かせない。CAISIの評価はあくまで能力の測定であり、データ取り扱いの安全性を保証するものではない。エンタープライズ利用では、オープンウェイトモデルを自社環境（オンプレまたは国内クラウド）でホスティングする構成を検討することが現実的な選択肢の一つになる。

ベンチマーク評価リテラシーを持つ

AIモデルの評価レポートを参照する際は「どのベンチマークを使っているか」「公開済みか非公開か」「第三者評価かベンダー自己申告か」を必ず確認する習慣が重要だ。今後のAI調達における基本リテラシーとして押さえておきたい。

筆者の見解

今回のCAISI評価レポートは、AI能力評価に政府機関が本格的に関与し始めたという点で一つのターニングポイントだと感じる。ベンダーが自社に都合の良いベンチマークを選んで発表するだけでは済まない時代に入ってきた、という意味だ。

DeepSeek V4 Proの結果について言えば、能力ギャップは確かにある。ただし数学領域での健闘とコスト効率の良さは、特定ユースケースでの選択肢として現実的な根拠になりえる。「最高性能モデルを使えばいい」という発想より、「タスクに十分な能力を持ち最もコストが低いモデルを選ぶ」という設計思想の方が、実務では正解になる場面も多い。

より広い視点で見ると、このような独立評価が定期的に公開される仕組みが育っていくことが重要だ。「どのモデルが最強か」を常に追いかけるより、信頼できる評価基準に基づいてタスクに合ったモデルを選べる判断力を養う方が、長期的には価値が高い。そのための情報インフラとして、CAISIのような機関の役割は今後さらに大きくなっていくだろう。

出典: この記事は CAISI Evaluation of DeepSeek V4 Pro | NIST の内容をもとに、筆者の見解を加えて独自に執筆したものです。

CAISIとはどういう機関か#

独立評価の結果：能力差は「約8カ月」#

自己申告と独立評価の乖離——ベンチマーク汚染の問題#

コスト効率では競争力あり#

実務への影響：日本のエンジニア・IT管理者が知っておくべきこと#

独立評価指標がAI調達判断の根拠になる#

中国製モデル利用時のリスク評価#

ベンチマーク評価リテラシーを持つ#

筆者の見解#