Google DeepMindは2026年6月24日、AIモデル「Gemini 3.5 Flash」に「Computer Use(コンピューター操作)」機能を標準搭載したと発表した。これまで別モデル「Gemini 2.5 computer use」としてのみ提供されていた機能が主力の高速モデルに統合され、ブラウザ・モバイル・デスクトップ環境を横断する自律エージェントの構築が開発者向けAPIで利用可能になった。

Computer Useとは何か

Computer Useとは、AIモデルが画面を「見て」理解し、クリック・テキスト入力・スクロールなどの操作を自律的に実行する能力のことだ。人間がPCを操作するのとほぼ同じ方法で、AIがGUIアプリケーションを操作できる。

Anthropicが2024年にClaude向けに発表して以来、各社が追随してきたこの機能カテゴリに、GoogleもGemini 2.5ベースの専用モデルとして参入。今回それをGemini 3.5 Flashのビルトインツールとして統合した形だ。

Gemini 3.5 Flashへの統合が意味すること

Geminiシリーズはこれまで、Function CallingやSearchグラウンディング、Mapsグラウンディングといったビルトインツールを持っていた。今回のComputer Use統合により、これらと同じレイヤーで「画面操作」が扱えるようになる。

公式に挙げられているユースケースは以下のとおりだ:

  • 継続的ソフトウェアテスト: 実際のブラウザ上でUIテストを自動実行し、リグレッションを継続検知
  • ナレッジワークの自動化: 複数の業務アプリケーションを横断した情報収集・入力・転記作業
  • アクセシビリティ監査: 自社ドキュメントやWebサイトのアクセシビリティ問題を自動検出

「Gemini Enterprise Agent Platform」との組み合わせにより、エンタープライズ規模のワークフロー自動化が想定されている。

安全対策——プロンプトインジェクションへの多層防御

Computer Useはその性質上、外部コンテンツからの「プロンプトインジェクション」攻撃に脆弱だ。Webページや文書に悪意のある指示が埋め込まれ、エージェントが意図しない操作(ファイル送信、フォーム送信など)を実行してしまうリスクがある。

Googleは以下の三段構えの対策を講じている:

  • 敵対的トレーニング: プロンプトインジェクションへの耐性をモデルレベルで強化
  • センシティブ操作の確認要求: 不可逆な操作の前に明示的なユーザー確認を要求するオプション
  • 自動タスク停止: 間接的なプロンプトインジェクションを検知した場合にタスクを自動停止するオプション

これをGoogleは「Defense-in-Depth(多層防御)」と位置付け、セキュアなサンドボックス化・ヒューマンインザループ検証・厳格なアクセス制御との組み合わせを推奨している。

試し方・利用開始の方法

  • Gemini API: 開発者が直接呼び出してカスタムエージェントを構築
  • Gemini Enterprise Agent Platform: エンタープライズ統合環境として利用
  • Browserbaseのデモ環境: Googleが提供するホスト型デモで即時動作確認が可能

リファレンス実装とドキュメントはGemini APIの公式ドキュメントとGemini Enterprise Agent Platformで公開されている。

実務への影響——日本のエンジニア・IT管理者へ

RPA(ロボティック・プロセス・オートメーション)や自動テストを検討している現場には注目すべき動向だ。

従来のRPAはXPathやCSSセレクターに依存するため、アプリケーションのUI変更でスクリプトが壊れる問題が長年の課題だった。Computer UseベースのAIエージェントは視覚的に画面を理解するため、この脆弱性を原理的に回避できる可能性がある。

ただし実際に採用を検討する前に確認すべき点がある:

  • 日本語UIへの対応精度: 英語環境中心の開発であり、日本語UIレイアウトや縦書き・IME操作への対応を自社環境で実際に検証する必要がある
  • セキュリティポリシーとの整合: 社内システムへのアクセスを伴う場合、情報セキュリティ規程との整合確認が必須
  • APIコストのROI計算: 長時間実行するエージェントはAPIコストが積み上がるため、自動化対象業務の工数削減効果と比較した試算が欠かせない

まずはBrowserbaseのデモ環境か社内開発環境で限定的に試し、「動いた」ではなく「業務として使い続けられる」水準かを小規模に検証することを強くお勧めする。

筆者の見解

Computer Useという機能カテゴリの方向性自体は正しいと思う。画面を見て操作するという人間に近いインターフェースで自動化できるなら、これまで技術的にアプローチが難しかった業務領域に踏み込める。その発想には意義がある。

一方で、Googleのエージェント系機能については「発表の速さ」に対して「実務での信頼性の積み上げ」がまだ追いついていない印象を持っている。新機能のリリースペースは確かに速いが、実際の業務で日常的に使い続けられるレベルに達しているかどうかは、デモ環境での動作だけでは判断できない。

今回の安全対策の設計(多層防御・確認要求・自動停止)は筋が良い。ここは素直に評価したい。プロンプトインジェクションを「モデルだけで解決しようとしない」という姿勢は正しいアーキテクチャ判断だ。

ただ日本企業での実運用を考えると、英語前提の設計・日本語UIへの対応品質・社内セキュリティ要件という三つのハードルが加わる。Googleの技術的なポテンシャルは本物だが、今の段階では「使える可能性がある」と「業務で使える」の間にまだ距離がある。慎重に検証しながら付き合っていくのが賢明だろう。


出典: この記事は Computer use in Gemini 3.5 Flash の内容をもとに、筆者の見解を加えて独自に執筆したものです。