NVIDIAとGoogleは、オープンモデルファミリー「Gemma 4」をNVIDIA RTX搭載PCおよびDGX Spark向けに共同最適化したと発表した。ネイティブ関数呼び出し・JSON出力・動画/音声入力といったエージェントAIに必要な機能が、クラウドに依存せず手元のハードウェアで動作するようになる。
Gemma 4の全ラインアップと対応デバイス
今回の最適化対象となったGemma 4ファミリーは4モデル構成だ。
モデル 用途 主な対応デバイス
E2B 超軽量・超低遅延推論 Jetson Orin Nano、エッジデバイス
E4B エッジでの高効率実行 Jetson Orin Nano、RTX PC
26B 高性能推論・コーディング RTX GPU、DGX Spark
31B エージェントワークフロー RTX GPU、DGX Spark
E2B/E4Bはオフライン・低レイテンシに特化した設計で、産業用エッジデバイスのJetson Orin Nanoでも動作する。一方、26B/31Bはエージェントタスクを想定した設計で、RTX 5090などのハイエンドGPUでの推論に最適化されている。
すべてのモデルが以下の機能をサポートする:
- ネイティブ関数呼び出し(Function Calling): ツール使用が前提のエージェント設計
- 構造化JSON出力: パイプライン統合を容易にする
- マルチモーダル入力: 画像・動画・音声・テキストを混在して入力可能
- 35言語以上の多言語対応: 140言語以上で事前学習済み
ローカル実行のセットアップ方法
NVIDIAはOllamaおよびllama.cppとの統合を整備しており、RTX PC上での導入は比較的シンプルだ。
Ollamaを使う場合:
出典: この記事は NVIDIA Accelerates Google Gemma 4 for Local Agentic AI on RTX の内容をもとに、筆者の見解を加えて独自に執筆したものです。