ChatGPT エージェント登場!ブラウザ操作もこなす自律AIアシスタント
この記事の内容
- OpenAIが発表した「ChatGPTエージェント」は、ブラウザ操作・検索・コーディングを統合した自律型AIアシスタントです
- 航空券予約やオンライン注文など、Webブラウザを使った実際のタスクを自律的に実行できます
- Gmail・Googleカレンダーとの連携や、PowerPoint・スプレッドシートの自動作成にも対応しています
- 重要な操作の前には必ずユーザーの許可を求める設計で、安全性が考慮されています
- ChatGPT Pro/Plus/Teamユーザーから順次展開が始まっており、Proユーザーはほぼ無制限で利用可能です
ChatGPTエージェントとは何か
OpenAIは、新機能「ChatGPTエージェント」を発表しました。これは従来のChatGPTが持つ検索・コーディング・会話といった能力をさらに一歩進め、ChatGPT専用のコンピューターを使ってユーザーのために仕事をしてくれるAIアシスタントです。
これまで有料プランユーザー向けに提供されていたブラウザ操作機能や、長時間のWebリサーチを行うディープリサーチ機能、そしてChatGPTの得意な会話能力が融合しています。まるで優秀な部下に指示を出すかのように、複雑なタスクを一括して依頼できるのが最大の特徴です。
主な機能とデモ紹介
Webブラウザを使ったタスク実行
公開されたデモ動画では、以下のような実際のブラウザ操作タスクをこなす様子が紹介されています。
航空券の予約 旅行サイト(Expediaなど)にアクセスし、「ユナイテッド航空が好き」といったユーザーの好みを考慮しながら、ニューヨーク行きの直行便で通路側の席を検索して予約手続きを進めます。
オンライン注文 ステッカー作成サイトにアクセスし、指定された画像をアップロードして500枚のステッカーを注文、支払い処理まで自動で実行します。
各種アプリケーションとの連携
メールの要約 Gmailに接続し、最近のメールをレビューして内容を要約します。
カレンダー連携 Googleカレンダーにアクセスし、指定した日付の空き状況を確認します。
資料の自動作成
グラフや画像を含むPowerPointスライドをレイアウトから自動で作成したり、データを整理してスプレッドシート形式で出力したりすることもできます。
これらのデモから、エージェントが単一の機能だけでなく、複数のツールやサービスを横断的に活用して一連のタスクを統合的に処理できることがわかります。
自律的なタスク実行と人間との連携
ChatGPTエージェントの大きな特徴は、自ら思考して行動できる点にあります。
自律的なツール選択
与えられたタスクに対して、決まった手順に頼るのではなく、利用可能なAPIやツール(グラフィカルなブラウザ、テキストベースのブラウザなど)の中から最適なものを自ら判断して活用します。
人間との協調動作
タスクの実行中であっても、ユーザーはいつでも処理を中断して指示を修正したり、より明確な指示を与えたりすることが可能です。進行状況が失われることはなく、エージェントが行き詰まった際にはユーザーに確認を求めてきます。
また、フォームの送信など重要なアクションの前には必ずユーザーの許可を求める設計になっているため、意図しない操作が実行されてしまうリスクが抑えられています。
実際のデモシナリオ
来週のクライアントミーティング向けに資料作成を依頼するシナリオでは、エージェントが以下の流れで作業を進めました。
- Googleカレンダーで予定を確認
- 関連する最新ニュースをWebで検索
- 集めた情報と社内データをもとに、Pythonライブラリ(
openpyxlなど)を駆使してプレゼンテーションを自動作成
この一連の流れは、まさに人間のアナリストが行う作業そのものです。
ベンチマーク結果
ChatGPTエージェントは、様々なベンチマークで高い性能を示しています。特に投資銀行アナリストの業務をシミュレートするタスクや、現実世界のWebタスクを評価する「WebArenaベンチマーク」などで最高スコアを記録しました。
注目すべき点は、AI同士の比較だけでなく「Human(人間)」のスコアも併記されており、その性能が人間に近づきつつあることが示されている点です。
提供開始時期とプラン
ChatGPTエージェントは以下のスケジュールで段階的に提供が開始されます。
| ユーザー区分 | 展開時期 |
|---|---|
| Pro / Plus / Team | 発表日から数日以内 |
| Enterprise / Education | 数週間後 |
利用制限については、Proユーザーはほぼ無制限にタスクを実行可能です。その他の有料プランでは月間50件のタスク制限があり、必要に応じてクレジットベースで追加購入する形式となっています。
安全性への取り組み
OpenAIは以下の点を安全対策として強調しています。
- 送金などリスクの高い操作の防止
- プロンプトインジェクションへの防御
- プライバシー管理
現段階はまだ初期リリースであり、複雑なタスクでは誤りを犯す可能性や、資料作成の質がやや粗い場合があることも正直に認められています。特に既存のスライドを編集する機能はまだ実装されていませんが、次世代の機能開発はすでに進んでいるとのことです。
まとめ
ChatGPTエージェントは、ブラウザ操作・外部サービス連携・資料作成を自律的にこなす、これまでとは一線を画すAIアシスタントです。特にブラウザ操作を伴う定型業務の多くが自動化される可能性があり、その操作精度によっては私たちの仕事の進め方に大きな影響を与えることが期待されます。
一方で、現時点では初期リリースであり完璧ではないこと、重要な操作には必ずユーザーの確認が必要であることを念頭に置いたうえで、まずは日常の繰り返し業務への活用から試してみると良いでしょう。