ChatGPT エージェント登場！ブラウザ操作もこなす自律AIアシスタント

この記事の内容

OpenAIは、新機能「ChatGPTエージェント」を発表しました。これは従来のChatGPTが持つ検索・コーディング・会話といった能力をさらに一歩進め、ChatGPT専用のコンピューターを使ってユーザーのために仕事をしてくれるAIアシスタントです。

これまで有料プランユーザー向けに提供されていたブラウザ操作機能や、長時間のWebリサーチを行うディープリサーチ機能、そしてChatGPTの得意な会話能力が融合しています。まるで優秀な部下に指示を出すかのように、複雑なタスクを一括して依頼できるのが最大の特徴です。

公開されたデモ動画では、以下のような実際のブラウザ操作タスクをこなす様子が紹介されています。

航空券の予約 旅行サイト（Expediaなど）にアクセスし、「ユナイテッド航空が好き」といったユーザーの好みを考慮しながら、ニューヨーク行きの直行便で通路側の席を検索して予約手続きを進めます。

オンライン注文 ステッカー作成サイトにアクセスし、指定された画像をアップロードして500枚のステッカーを注文、支払い処理まで自動で実行します。

メールの要約 Gmailに接続し、最近のメールをレビューして内容を要約します。

カレンダー連携 Googleカレンダーにアクセスし、指定した日付の空き状況を確認します。

グラフや画像を含むPowerPointスライドをレイアウトから自動で作成したり、データを整理してスプレッドシート形式で出力したりすることもできます。

これらのデモから、エージェントが単一の機能だけでなく、複数のツールやサービスを横断的に活用して一連のタスクを統合的に処理できることがわかります。

ChatGPTエージェントの大きな特徴は、自ら思考して行動できる点にあります。

与えられたタスクに対して、決まった手順に頼るのではなく、利用可能なAPIやツール（グラフィカルなブラウザ、テキストベースのブラウザなど）の中から最適なものを自ら判断して活用します。

タスクの実行中であっても、ユーザーはいつでも処理を中断して指示を修正したり、より明確な指示を与えたりすることが可能です。進行状況が失われることはなく、エージェントが行き詰まった際にはユーザーに確認を求めてきます。

また、フォームの送信など重要なアクションの前には必ずユーザーの許可を求める設計になっているため、意図しない操作が実行されてしまうリスクが抑えられています。

来週のクライアントミーティング向けに資料作成を依頼するシナリオでは、エージェントが以下の流れで作業を進めました。

この一連の流れは、まさに人間のアナリストが行う作業そのものです。

ChatGPTエージェントは、様々なベンチマークで高い性能を示しています。特に投資銀行アナリストの業務をシミュレートするタスクや、現実世界のWebタスクを評価する「WebArenaベンチマーク」などで最高スコアを記録しました。

注目すべき点は、AI同士の比較だけでなく「Human（人間）」のスコアも併記されており、その性能が人間に近づきつつあることが示されている点です。

ChatGPTエージェントは以下のスケジュールで段階的に提供が開始されます。

ユーザー区分	展開時期
Pro / Plus / Team	発表日から数日以内
Enterprise / Education	数週間後

利用制限については、Proユーザーはほぼ無制限にタスクを実行可能です。その他の有料プランでは月間50件のタスク制限があり、必要に応じてクレジットベースで追加購入する形式となっています。

OpenAIは以下の点を安全対策として強調しています。

現段階はまだ初期リリースであり、複雑なタスクでは誤りを犯す可能性や、資料作成の質がやや粗い場合があることも正直に認められています。特に既存のスライドを編集する機能はまだ実装されていませんが、次世代の機能開発はすでに進んでいるとのことです。

ChatGPTエージェントは、ブラウザ操作・外部サービス連携・資料作成を自律的にこなす、これまでとは一線を画すAIアシスタントです。特にブラウザ操作を伴う定型業務の多くが自動化される可能性があり、その操作精度によっては私たちの仕事の進め方に大きな影響を与えることが期待されます。

一方で、現時点では初期リリースであり完璧ではないこと、重要な操作には必ずユーザーの確認が必要であることを念頭に置いたうえで、まずは日常の繰り返し業務への活用から試してみると良いでしょう。