DeepSeek V4 Pro登場：オープンウェイトAI世界2位を獲得、100万トークン対応も幻覚率94%の課題が残る

DeepSeekが新アーキテクチャを採用した「DeepSeek V4 Pro」と「DeepSeek V4 Flash」を2026年4月にリリースし、V4 ProはArtificial Analysis Intelligence Indexのオープンウェイト部門で世界第2位を獲得した。

V3以来初の新アーキテクチャ——Pro/Flash二層構成を導入

DeepSeekは2026年4月24日、新モデル「DeepSeek V4 Pro」と「DeepSeek V4 Flash」を公開した。V4シリーズはV3以来初の新アーキテクチャを採用しており、同社として初めて「Pro/Flash」という2層構成を取り入れた。

V4 Pro: 総パラメータ1.6兆（1.6T）／アクティブパラメータ49B。最大性能を重視したフラッグシップポジション
V4 Flash: 総パラメータ284B／アクティブパラメータ13B。高速・低コスト推論向け

両モデルともハイブリッド思考（Thinking/Non-Thinking）に対応。ライセンスはMITを継続しており、商用利用を含めた自由な利用が可能だ。

Intelligence Indexで10ポイント大幅改善、オープンウェイト首位に肉薄

Artificial Analysis Intelligence Indexでの評価では、V4 Pro（Max設定）がスコア52を記録。前バージョンV3.2のスコア42から10ポイントの大幅改善で、オープンウェイトモデルの中でKimi K2.6（54）に次ぐ第2位につけた。

V4 Flashはスコア47で、V4 Proには届かないものの、主要クローズドソースモデルと同等水準の知性を示している。

エージェント性能でオープンウェイト首位

実世界タスクのベンチマーク「GDPval-AA」において、V4 ProはスコアGDPval-AA: 1554を記録し、オープンウェイトモデルのトップに立った。比較対象では以下を上回っている。

モデル GDPval-AAスコア

DeepSeek V4 Pro (Max) 1554

GLM-5.1 1535

MiniMax-M2.7 1514

Kimi K2.6 1484

エージェントとして使うユースケースが拡大している現在、この評価は実用上の意味が大きい。

コンテキスト長が8倍——128Kから100万トークンへ

V3.2の128Kトークンから100万（1M）トークンへと、コンテキスト長が8倍に拡張された。長大なコードベース、膨大な文書群、長期にわたる会話履歴を一度に処理できる用途への道が開ける。

価格：クローズドソース比で割安だが、同世代オープンウェイトと比べると高め

DeepSeek V4 ProのAPIプライシングは入力$1.74／出力$3.48（100万トークンあたり）。Intelligence Indexをフル実行した場合のコスト試算では以下の通りだ。

モデル実行コスト（目安）

Claude Opus 4.7 $4,811

DeepSeek V4 Pro $1,071

Kimi K2.6 $948

GLM-5.1 $544

DeepSeek V4 Flash $113

DeepSeek V3.2 $71

クローズドソースと比較すると4倍以上割安だが、同世代オープンウェイトモデルの中ではコスト効率は高くない。V4 Flashは入力$0.14／出力$0.28（100万トークンあたり）とProの約15分の1の価格帯で提供されており、大量処理が必要な用途ではFlashとの使い分けが合理的だ。

見過ごせない課題：幻覚率94〜96%

性能面の改善とセットで直視すべき問題がある。V4 Pro・V4 FlashいずれもAA-Omniscienceスコアでの幻覚（ハルシネーション）発生率が94〜96%と極めて高い。これは「答えを知らない質問でも、ほぼ確実に何らかの回答を生成してしまう」ことを意味する。

知識精度スコア（AA-Omniscience）はV4 ProがV3.2比で11ポイント改善しているものの、依然として−10というマイナス値だ。回答の「精度」は上がっても、「不確かさの自覚」という点では課題が残る。

実務への影響——日本のエンジニア・IT担当者が押さえるべきポイント

ローカル・プライベート環境への展開：MITライセンスのオープンウェイトモデルのため、オンプレミスや企業内プライベートクラウドへのデプロイが可能だ。機密データを外部のAPIに送ることなく、高性能なAIを社内で利用したい企業には現実的な選択肢となる。

エージェント用途への活用と検証設計の重要性：エージェント性能でオープンウェイト首位という評価は、自動化パイプライン構築の文脈で注目に値する。ただし幻覚率の高さから、出力をそのまま自動処理に流す運用には検証ステップの組み込みが必須だ。RAGアーキテクチャとの組み合わせや、出力の事実確認レイヤーを設計に盛り込むことで弱点を補いたい。

V4 Pro vs V4 Flash の使い分け：高い知性が求められる複雑なタスクにはPro、大量処理・高頻度APIコールにはFlashというように、用途とコストのバランスで選定するのが合理的だ。

筆者の見解

DeepSeek V4 Proがオープンウェイト部門で世界2位に入ったことは、オープンウェイトモデルの進化がクローズドソースとの差を着実に縮めていることを示している。エージェント性能での首位という評価は、ループで自律的に動くAIエージェントを構築したいエンジニアにとって実際的な意味を持つ。

一方で、幻覚率94〜96%という数字は正直に受け止めるべきだろう。ベンチマークスコアが高くなっても「知らないことを知らないと言えない」問題が残る限り、実業務への無条件な適用はリスクを伴う。この弱点をどう設計で補うかが、活用の鍵になる。

オープンウェイトモデルがここまで進化してきたことで、「クローズドソースAPIしか選択肢がない」という状況は変わりつつある。データガバナンスやコスト管理の観点から、セルフホスト型のモデルが実務の選択肢として現実的になってきた。ただし「性能が高い＝そのまま使える」ではないことを念頭に、用途に応じた設計と検証体制を整えることが、今の時代のAI活用の基本姿勢だと思う。

出典: この記事は DeepSeek is back among the leading open weights models with V4 Pro and V4 Flash の内容をもとに、筆者の見解を加えて独自に執筆したものです。

V3以来初の新アーキテクチャ——Pro/Flash二層構成を導入#

Intelligence Indexで10ポイント大幅改善、オープンウェイト首位に肉薄#

エージェント性能でオープンウェイト首位#

コンテキスト長が8倍——128Kから100万トークンへ#

価格：クローズドソース比で割安だが、同世代オープンウェイトと比べると高め#

見過ごせない課題：幻覚率94〜96%#

実務への影響——日本のエンジニア・IT担当者が押さえるべきポイント#

筆者の見解#