AIエージェント

ChatGPTのエージェントモードで「胡田昌彦」の紹介スライドを作ってもらった！

ChatGPTのエージェントモードで「胡田昌彦」の紹介スライドを作ってもらった！この記事の内容 ChatGPTの新機能「エージェントモード」を使って、自分自身の紹介スライドを自動生成した実験レポートですエージェントモードがWebを自律的に検索・情報収集し、PowerPointファイルを生成するまでの流れを紹介します日本語URLへのアクセス制限など、実際に使って見えてきた課題についても解説します生成されたスライドの構成と内容の精度についてレビューします AIと人間が協働する資料作成の可能性と今後への期待についてまとめますエージェントモードとは何か ChatGPTに搭載された「エージェントモード」は、AIが自動でWebを検索し、情報を収集し、その情報をもとにレポート・プレゼンテーション・スプレッドシートなどのアウトプットを自律的に作成できる機能です。このモードでは、AIが仮想のデスクトップ環境上でブラウザを操作し、まるで人間がPCで作業するような流れで情報収集から資料作成までを一気通貫で実行します。RPA（ロボティック・プロセス・オートメーション）的な要素も強く、今後のAI活用の可能性を大きく感じさせる機能です。 ChatGPT Plusで利用可能で、利用回数には上限があります（初期状態で40回程度）。モデル選択画面のツールメニューから「エージェントモード」を有効にすることで使用できます。今回のチャレンジ：自分自身の紹介スライドを自動生成今回は「Webを調査し、胡田昌彦の情報を収集して紹介用PowerPointを作成してください」という指示を与えてみました。情報量はできるだけ多く、スライドは文字が大きめで読みやすいものにしてほしい、という細かな要望も合わせて伝えています。指示を受けたAIはすぐに行動を開始し、ホームページ・Amazon・所属会社のWebサイト・Microsoft MVPのプロフィールページなどを次々と検索していきます。人間がWebブラウザで情報収集する流れをそのままAIが再現している様子が画面上にリアルタイムで表示されるのは、非常に興味深い体験です。 Web情報収集における壁：アクセス制限と日本語URLの問題情報収集の過程でいくつかの障害も見えてきました。アクセス制限の問題として、Amazonなど一部のサイトではAIによるアクセスがブロックされてしまいます。日本語URLの問題として、「note」や「コンパス」など日本語エンコーディングを含むURLのページでは、「404 Not Found」や「ページが見つかりません」といったエラーが頻発しました。英語圏のサイトには強い一方、日本語独自のURL文字列への対応にはまだ課題が残っている様子です。これは今後のAI進化に期待したいポイントですが、裏を返せば「AI専用の情報ページ」や「AIがアクセスしやすいプロトコル」を整備していく時代に入りつつあるとも言えます。スライドの自動生成プロセス情報収集が一段落すると、AIはJavaScriptライブラリの「PPTXGenJS」などを活用してPowerPointファイルの自動生成を開始します。タイトル画像のレイアウトについても、AIが自ら複数回作り直して画像サイズや配置を微調整していました。まるで人間のデザイナーが試行錯誤しているような、細やかな仕事ぶりです。最終的にはpptxファイルとして出力されます。生成されたスライドの構成完成したスライドは以下のような構成になっていました。スライド内容タイトルページ肩書き（エンジニア・Microsoft MVP・著者・YouTuber）とキャッチコピー基本情報・幼少期 1979年生まれ、茨城県出身、子ども時代のプログラミング体験キャリアの歩みシステムインフラ・部門立ち上げ・技術と営業の橋渡し役など著書紹介自著の概要・出版情報 Microsoft MVP・ハイブリッドクラウド研究会受賞歴・研究会活動 YouTube・趣味・家族チャンネルでの発信活動や家族エピソードまとめ多面的な活動と今後の展望さらに参考文献・出典リンクもスライド内に自動で挿入されていた点は特筆に値します。内容の精度はどうだったか生成内容は、ネット上に公開されている自己紹介記事・日記・インタビュー記事などから情報を抽出・要約して構成されていました。いくつか細かな誤り（たとえば入社先の社名が実際と異なる、など）や情報の抜け漏れは見られましたが、全体的な完成度としては人間が一から調べてまとめたものと比較しても遜色のないレベルです。複数の情報源を参照して違和感なくつなげてまとめる能力には、改めて驚かされました。活用シーンと今後への期待エージェントモードは「自動情報収集」と「資料作成」が一体化しているため、次のようなシーンで特に威力を発揮します。人物紹介スライドの自動作成競合・市場調査レポートの生成複数のWebソースをまとめた提案書の素案作成ネット上に十分な情報が公開されている場合は、短時間で質の高いアウトプットが得られます。一方で今回の実験から明らかになったのは、「AIが情報を取得しやすい環境整備」の重要性です。AIが正確に情報を取得できるよう、自分の情報をAIフレンドリーな形式で公開しておくことが、今後の個人ブランディングの観点でも重要になるかもしれません。まとめ ChatGPTのエージェントモードを使った今回の実験では、以下のことが確認できました。 AIが自律的にWeb調査から資料作成まで一気通貫で実行できることが実証されました日本語URLへのアクセス制限など、日本語環境特有の課題も見えてきました全体的な完成度は高く、人間が手を動かさなくてもかなりの品質の資料が自動生成可能です今後さらにAIの能力が向上すれば、ビジネスや研究の現場での活用範囲は大きく広がることが期待されます AIと人間が協働して知識をまとめ、発信していく時代はすぐそこまで来ています。エージェントモードはその先駆けとなる機能と言えるでしょう。

ChatGPT エージェント！ブラウザ操作もOK。

ChatGPT エージェント登場！ブラウザ操作もこなす自律AIアシスタントこの記事の内容 OpenAIが発表した「ChatGPTエージェント」は、ブラウザ操作・検索・コーディングを統合した自律型AIアシスタントです航空券予約やオンライン注文など、Webブラウザを使った実際のタスクを自律的に実行できます Gmail・Googleカレンダーとの連携や、PowerPoint・スプレッドシートの自動作成にも対応しています重要な操作の前には必ずユーザーの許可を求める設計で、安全性が考慮されています ChatGPT Pro/Plus/Teamユーザーから順次展開が始まっており、Proユーザーはほぼ無制限で利用可能です ChatGPTエージェントとは何か OpenAIは、新機能「ChatGPTエージェント」を発表しました。これは従来のChatGPTが持つ検索・コーディング・会話といった能力をさらに一歩進め、ChatGPT専用のコンピューターを使ってユーザーのために仕事をしてくれるAIアシスタントです。これまで有料プランユーザー向けに提供されていたブラウザ操作機能や、長時間のWebリサーチを行うディープリサーチ機能、そしてChatGPTの得意な会話能力が融合しています。まるで優秀な部下に指示を出すかのように、複雑なタスクを一括して依頼できるのが最大の特徴です。主な機能とデモ紹介 Webブラウザを使ったタスク実行公開されたデモ動画では、以下のような実際のブラウザ操作タスクをこなす様子が紹介されています。航空券の予約旅行サイト（Expediaなど）にアクセスし、「ユナイテッド航空が好き」といったユーザーの好みを考慮しながら、ニューヨーク行きの直行便で通路側の席を検索して予約手続きを進めます。オンライン注文ステッカー作成サイトにアクセスし、指定された画像をアップロードして500枚のステッカーを注文、支払い処理まで自動で実行します。各種アプリケーションとの連携メールの要約 Gmailに接続し、最近のメールをレビューして内容を要約します。カレンダー連携 Googleカレンダーにアクセスし、指定した日付の空き状況を確認します。資料の自動作成グラフや画像を含むPowerPointスライドをレイアウトから自動で作成したり、データを整理してスプレッドシート形式で出力したりすることもできます。これらのデモから、エージェントが単一の機能だけでなく、複数のツールやサービスを横断的に活用して一連のタスクを統合的に処理できることがわかります。自律的なタスク実行と人間との連携 ChatGPTエージェントの大きな特徴は、自ら思考して行動できる点にあります。自律的なツール選択与えられたタスクに対して、決まった手順に頼るのではなく、利用可能なAPIやツール（グラフィカルなブラウザ、テキストベースのブラウザなど）の中から最適なものを自ら判断して活用します。人間との協調動作タスクの実行中であっても、ユーザーはいつでも処理を中断して指示を修正したり、より明確な指示を与えたりすることが可能です。進行状況が失われることはなく、エージェントが行き詰まった際にはユーザーに確認を求めてきます。また、フォームの送信など重要なアクションの前には必ずユーザーの許可を求める設計になっているため、意図しない操作が実行されてしまうリスクが抑えられています。実際のデモシナリオ来週のクライアントミーティング向けに資料作成を依頼するシナリオでは、エージェントが以下の流れで作業を進めました。 Googleカレンダーで予定を確認関連する最新ニュースをWebで検索集めた情報と社内データをもとに、Pythonライブラリ（openpyxl など）を駆使してプレゼンテーションを自動作成この一連の流れは、まさに人間のアナリストが行う作業そのものです。ベンチマーク結果 ChatGPTエージェントは、様々なベンチマークで高い性能を示しています。特に投資銀行アナリストの業務をシミュレートするタスクや、現実世界のWebタスクを評価する「WebArenaベンチマーク」などで最高スコアを記録しました。注目すべき点は、AI同士の比較だけでなく「Human（人間）」のスコアも併記されており、その性能が人間に近づきつつあることが示されている点です。提供開始時期とプラン ChatGPTエージェントは以下のスケジュールで段階的に提供が開始されます。ユーザー区分展開時期 Pro / Plus / Team 発表日から数日以内 Enterprise / Education 数週間後利用制限については、Proユーザーはほぼ無制限にタスクを実行可能です。その他の有料プランでは月間50件のタスク制限があり、必要に応じてクレジットベースで追加購入する形式となっています。安全性への取り組み OpenAIは以下の点を安全対策として強調しています。送金などリスクの高い操作の防止プロンプトインジェクションへの防御プライバシー管理現段階はまだ初期リリースであり、複雑なタスクでは誤りを犯す可能性や、資料作成の質がやや粗い場合があることも正直に認められています。特に既存のスライドを編集する機能はまだ実装されていませんが、次世代の機能開発はすでに進んでいるとのことです。まとめ ChatGPTエージェントは、ブラウザ操作・外部サービス連携・資料作成を自律的にこなす、これまでとは一線を画すAIアシスタントです。特にブラウザ操作を伴う定型業務の多くが自動化される可能性があり、その操作精度によっては私たちの仕事の進め方に大きな影響を与えることが期待されます。一方で、現時点では初期リリースであり完璧ではないこと、重要な操作には必ずユーザーの確認が必要であることを念頭に置いたうえで、まずは日常の繰り返し業務への活用から試してみると良いでしょう。

AIエージェントを理解して、Azureで動かしたい人にお勧めの記事

AIエージェントを理解して、Azureで動かしたい人にお勧めの記事この記事の内容 Microsoft社員の佐内祐介氏が執筆した技術記事「AI エージェントのサービス構築を検討しているあなたへ」を紹介します記事は2部構成で、AIエージェントの基本概念から実際のAzure上での実装まで体系的に学べます Azureを使ってAIエージェントサービスを構築したい技術者に特におすすめの内容ですスクリーンショットが豊富で、手順に沿って実践しやすい構成になっていますクラウドサービスはUI変更が頻繁なため、できるだけ早めに試してみることを推奨します紹介する記事について今回ご紹介するのは、Microsoftの社員・佐内祐介氏が執筆した技術記事「AI エージェントのサービス構築を検討しているあなたへ」です。この記事はスクロール量を見ただけでもわかるほど非常にボリュームがあり、内容の骨太さが際立っています。まるで技術書1冊分に相当するほどの情報量が、無料で読める記事として公開されています。記事の構成この記事は2部構成になっており、概念の理解から実装まで段階的に学べる構成になっています。第1部：AIエージェントの基本概念とシステム構築ガイド AIエージェントとは何か、エージェントシステムをどのように設計・構築するかといった基礎的な概念を解説しています。第2部：Azure AIエージェントサービスを使ったワークフローとルーティングの実装実際にAzureのAIエージェントサービスを活用して、ワークフローやルーティングを実装する方法を解説しています。概念を理解した後、そのまま実装フェーズへ進めるよう構成されています。この記事が特におすすめな方以下のような方に特に価値のある内容です。普段からAzureを利用しており、Azure上でAIエージェントを活用したサービスを構築したい方 AIエージェントの概念は何となく理解しているが、具体的な実装方法を知りたい方手を動かしながら実践的に学びたい技術者の方概念の理解に留まらず、実際にサービスを構築するまでの具体的なステップが示されているため、「読んで終わり」ではなく「読んで実践できる」記事になっています。実践することの重要性記事の内容量が多いため、すべてを一度に詳細に追うのは大変かもしれません。しかし最も大切なのは、この記事を参考に実際に手を動かしてみることです。 AIエージェントサービスは、実際に触れることで理解が一気に深まります。まだ試したことがない方は、ぜひこの機会に挑戦してみてください。スクリーンショットの活用とクラウドあるあるに注意この記事にはスクリーンショットが豊富に含まれており、画面の手順に沿って作業を進めやすい構成になっています。ただし、クラウドサービスはUIの変更が頻繁に行われます。記事公開から時間が経過すると、実際の画面と細部が異なる場合があります。これはいわゆる「クラウドあるある」です。そうした状況を避けるためにも、できるだけ早めに試してみることをおすすめします。まとめ今回は、AzureでAIエージェントを使ったサービス開発を始めたい方に向けて、Microsoft社員・佐内祐介氏による技術記事「AI エージェントのサービス構築を検討しているあなたへ」をご紹介しました。 AIエージェントの基本概念から実際のAzure上での実装まで、1冊の技術書に匹敵するほどの内容がまとめられており、無料で読める貴重なリソースです。これからのエンジニアにとって、エージェント技術はますます重要な領域になっていきます。Azureをプラットフォームとして活用している方は、ぜひこの記事を参考に、AIエージェント構築の第一歩を踏み出してみてください。

【Gemini CLI】Google最強AIが今だけ無料でガンガン使える！/インストール方法

【Gemini CLI】Google最強AIが今だけ無料でガンガン使える！インストール方法この記事の内容 GoogleがリリースしたオープンソースのAIエージェント「Gemini CLI」の概要と特徴を解説します個人のGoogleアカウントで使える、非常に寛大な無料利用枠について紹介します Node.jsのインストールからGemini CLIの初期設定までの手順をステップごとに説明します実際にコンソール版テトリスを作成させてみた結果レビューをお届けします Gemini CLIとは GoogleがリリースしたオープンソースのAIエージェント「Gemini CLI」をご存知でしょうか。最近、Claude CodeのようなCLI（コマンドラインインターフェース）で動作するAIエージェントが人気を集めていますが、ついにGoogleもこの分野に参入しました。 Gemini CLIはコーディング支援はもちろん、コンテンツ生成、問題解決、リサーチ、タスク管理まで幅広い用途に対応する多機能なローカルユーティリティです。WebのチャットAIとは異なり、自分のPC環境と直接連携し、ローカルで可能な作業をAIエージェントが強力にサポートしてくれます。コストを抑えつつ最新のAIを試したい方には、特におすすめのツールと言えるでしょう。個人開発者向けの寛大な無料利用枠 Gemini CLIの最大の注目点は、その利用制限の緩さです。個人のGoogleアカウントでログインし、無償版の「Gemini Code Assist」ライセンスを取得するだけで、以下の機能が無料で利用できます。 Gemini 1.5 Pro モデルへのアクセス 100万トークンの広大なコンテキストウィンドウ毎分60回のリクエスト制限現在はプレビュー期間中ということもあり、通常の個人利用であれば十分に無料で使い続けられるほどの枠が提供されています。インストール手順ステップ1：前提条件「Node.js」のインストールまず、前提条件として Node.js（バージョン18以上）が必要です。Windows、Linux、Macのいずれの環境でも動作します。以前、Claude CodeではWSL（Windows Subsystem for Linux）が必須でしたが、Gemini CLIは素のWindows上のNode.jsでも動作するのが大きな利点です。 Node.js公式サイトにアクセスし、ご自身の環境に合ったインストーラー（通常はWindows 64-bitのMSI）をダウンロードしますダウンロードしたインストーラーを起動し、基本的に「Next」をクリックして進めます途中で「Tools for Native Modules」のインストールを尋ねるチェックボックスが表示されます。後で問題が発生するのを避けるため、チェックを入れておくことをおすすめしますインストールが完了すると、追加のスクリプトを実行するためのウィンドウが自動で開くことがあります。指示に従ってキーを押し、処理が完了するのを待ちますステップ2：Gemini CLIのインストール Node.jsの準備が整ったら、ターミナル（Windows TerminalやPowerShellなど）を起動してGemini CLIをインストールします。注意： Node.jsインストール前からターミナルを開いていた場合は、一度閉じてから再度起動してください。以下のコマンドを実行して、Gemini CLIをグローバルインストールします。 npm install -g @google/gemini-cli ステップ3：起動と初期認証インストール後、以下のコマンドでGemini CLIを起動します。 gemini 初回起動時には、画面のテーマ（配色）や認証方法を尋ねられます。テーマ：好みのものを選択します（デフォルトで問題ありません）認証方法：Log in with Google を選択し、Enterキーを押しますブラウザが自動で開き、Googleアカウントの選択と認証を求められます。使用したいアカウントでログインし、アクセスを許可してくださいターミナルに戻ると、Geminiとの対話が開始できる状態になっています。これでセットアップは完了です。 ...

Agent Builderで簡単agent開発！

Agent Builderで簡単agent開発！この記事の内容 VS CodeのAI Toolkitに含まれる「Agent Builder」を使うと、AIエージェントをわずか数分で開発できます以前の「Prompt Builder」が進化したツールで、シンプルなチャットボットから複雑なエージェントまで対応しています **MCP（Model Context Protocol）**サーバーと連携することで、データベースや外部APIを操作できるエージェントが作れます既存のMCPサーバーへの接続だけでなく、新しいMCPサーバーのプロジェクトをスキャフォールドする機能も備えていますプロトタイプから本番環境用のコード生成まで一貫してサポートしています Agent Builderとは VS CodeのAI Toolkitに含まれる「Agent Builder」は、以前「Prompt Builder」と呼ばれていたツールが進化したものです。単なるプロンプト作成支援にとどまらず、AIエージェントの構築を包括的にサポートします。シンプルなチャットボットから、様々なツールを駆使する複雑なエージェントまで、アイデアの着想から実装、既存アプリケーションへの統合までの一連のプロセスを大幅に簡略化します。主な特徴は以下のとおりです。高速なイテレーション: 「作成」「テスト」「改良」のサイクルをVS Code内で素早く回せます多様な対話形式: 一問一答だけでなく、複数回のやり取り（マルチターン）にも対応しています構造化出力: エージェントの出力形式を定義し、タスクを細分化して処理させることが可能です簡単な組み込み: 生成されたコードを既存アプリケーションに容易に統合できます MCPサーバーとの連携でエージェントを強化 Agent Builderの最も強力な機能のひとつが、**MCP（Model Context Protocol）**サーバーとの連携です。これにより、エージェントは外部の世界と対話し、より高度なタスクを実行できるようになります。連携できる操作の例を挙げると、次のとおりです。データベースへのクエリ実行外部APIへのアクセス独自に定義したビジネスロジックの実行既存のMCPサーバーへの接続すでに稼働しているMCPサーバーがあれば、簡単な手順でエージェントに接続できます。ツールセクションで「+ MCP Server」を選択します接続タイプ（コマンド、HTTPサーバーなど）を選びますサーバーが提供するツールの中から、使用したいものを選択しますこれにより、エージェントは対話の中でリアルタイムのデータを取得したり、カスタムのバックエンドサービスを呼び出したりすることが可能になります。新しいMCPサーバーの構築独自のツールを開発したい場合、Agent BuilderはMCPサーバーのプロジェクトを初期構築（スキャフォールド）する機能も提供しています。「+ MCP Server」から「New MCP Server Project」を選択します開発言語（PythonまたはTypeScript）を選びますプロジェクト名と保存先フォルダを指定しますすると、基本的なコードが自動生成され、開発者はロジックの拡張に集中できます。さらに、VS Code標準のデバッガ（F5キー）を使って、開発中のツールを簡単にテスト・デバッグできる点も大きな利点です。例えば「上海の天気を教えて」というプロンプトに対し、エージェントが自動で気象情報MCPサーバーに接続して予報を返すといった動作を、簡単に実装してテストできます。プロトタイプから本番環境へ Agent Builderは、プロトタイピングだけでなく、本番環境で通用するコードの生成もサポートしています。また、Microsoftは「AI Sparks」というウェビナーシリーズを隔週で開催しており、AI Toolkitの活用方法をハンズオン形式で学べます。このシリーズでは、以下のような高度なトピックも扱われています。ローカル環境でのAIモデルの実行と、エッジデバイスやクラウドへの展開埋め込みモデルとRAG（Retrieval-Augmented Generation）マルチモーダルAI（画像・テキストなど）自律的な意思決定を行うAIシステム（Agentic Framework）まとめ Agent Builderは、VS Codeを使い慣れた開発者にとって、AIエージェントの開発とアプリケーションへの統合を劇的に効率化するツールです。特にMCPサーバーとの連携機能は、エージェントに外部データや機能へのアクセスを可能にし、その可能性を大きく広げます。 ...