OpenAI、GPT-5.4を正式リリース——プロフェッショナル向け最高性能モデルが登場
OpenAIは、新たな基盤モデル「GPT-5.4」を正式にリリースした。同社は「プロフェッショナルワークに向けた、最も高性能かつ効率的なフロンティアモデル」と位置づけている。
標準版に加え、推論特化版の「GPT-5.4 Thinking」と高性能最適化版の「GPT-5.4 Pro」の3バリアントが同時提供される。
100万トークンのコンテキストウィンドウ
API版では最大100万トークンのコンテキストウィンドウに対応しており、これはOpenAIのモデルとして過去最大規模となる。長大なドキュメントの処理やコードベース全体を一括で扱う用途に大きな強みを持つ。さらにトークン効率も改善しており、前モデルと比較して同じ問題をより少ないトークン数で解決できるという。
ベンチマーク各種で記録を更新
コンピューター操作の評価指標「OSWorld-Verified」および「WebArena Verified」で過去最高スコアを達成。知識業務タスクを評価する「GDPval」では83%を記録した。
また、弁護士・ファイナンスの専門スキルを測る「Mercor APEX-Agentsベンチマーク」でもトップに立った。Mercor CEOのBrendan Foody氏は「スライドデッキ、財務モデル、法律文書といった長期成果物の作成に優れ、競合のフロンティアモデルより高速かつ低コストでトップパフォーマンスを発揮する」とコメントしている。
幻覚(ハルシネーション)を大幅削減
GPT-5.4では、AIが事実と異なる情報を生成する「ハルシネーション(幻覚)」の抑制にも注力。GPT-5.2と比較して個別の主張における誤りが33%減少し、回答全体のエラー率も18%低下したとしている。日本でもAIの業務利用が広がる中、信頼性向上は実用化の重要な鍵となる。
Tool Search:トークン消費を抑える新設計
API版では「Tool Search」と呼ばれる新しいツール呼び出し管理システムが導入された。従来はシステムプロンプトにすべてのツール定義を列挙する必要があり、ツール数が増えるほどトークン消費が膨らむ問題があった。新システムでは必要に応じてツール定義を動的に参照する仕組みとなり、大規模なツール群を持つシステムでのリクエストを高速化・低コスト化できる。
推論プロセスの安全性評価も強化
OpenAIはGPT-5.4のリリースに合わせ、モデルの「思考の連鎖(Chain-of-Thought、CoT)」——複数ステップの推論過程を可視化する仕組み——を対象とした新たな安全性評価を導入した。AI安全研究者の間では、推論モデルが思考プロセスを意図的に隠蔽・偽装するリスクが懸念されていた。今回の評価によれば、GPT-5.4 Thinkingでは「モデルが推論を隠す能力を持たないことが示唆される」とし、CoTの監視が有効な安全ツールであり続けることが確認されたとしている。
GPT-5.4は、単なるチャットアシスタントを超え、複数のソフトウェア環境をまたいで自律的に業務を遂行する「デジタルワーカー」への転換点として注目されている。API経由での利用が可能で、企業向けの本格的な業務自動化への活用が期待される。