NVIDIAとGoogleがGemma 4をRTX GPU向けに最適化——ローカル環境でエージェントAIを完全オフラインで動かす時代へ

NVIDIAとGoogleは、オープンモデルファミリー「Gemma 4」をNVIDIA RTX搭載PCおよびDGX Spark向けに共同最適化したと発表した。ネイティブ関数呼び出し・JSON出力・動画/音声入力といったエージェントAIに必要な機能が、クラウドに依存せず手元のハードウェアで動作するようになる。

Gemma 4の全ラインアップと対応デバイス

今回の最適化対象となったGemma 4ファミリーは4モデル構成だ。

モデル用途主な対応デバイス

E2B 超軽量・超低遅延推論 Jetson Orin Nano、エッジデバイス

E4B エッジでの高効率実行 Jetson Orin Nano、RTX PC

26B 高性能推論・コーディング RTX GPU、DGX Spark

31B エージェントワークフロー RTX GPU、DGX Spark

E2B/E4Bはオフライン・低レイテンシに特化した設計で、産業用エッジデバイスのJetson Orin Nanoでも動作する。一方、26B/31Bはエージェントタスクを想定した設計で、RTX 5090などのハイエンドGPUでの推論に最適化されている。

すべてのモデルが以下の機能をサポートする：

ネイティブ関数呼び出し（Function Calling）: ツール使用が前提のエージェント設計
構造化JSON出力: パイプライン統合を容易にする
マルチモーダル入力: 画像・動画・音声・テキストを混在して入力可能
35言語以上の多言語対応: 140言語以上で事前学習済み

ローカル実行のセットアップ方法

NVIDIAはOllamaおよびllama.cppとの統合を整備しており、RTX PC上での導入は比較的シンプルだ。

Ollamaを使う場合:

出典: この記事は NVIDIA Accelerates Google Gemma 4 for Local Agentic AI on RTX の内容をもとに、筆者の見解を加えて独自に執筆したものです。

Gemma 4の全ラインアップと対応デバイス#

ローカル実行のセットアップ方法#

Gemma 4の全ラインアップと対応デバイス

ローカル実行のセットアップ方法