驚異のAI技術!Auto-GPTでChatGPTを自動化してみた!ウェブ検索もできちゃうぞ!
この記事の内容
- Auto-GPTとは何か、どのような仕組みで動くかを解説します
- GitHubからAuto-GPTをセットアップする手順を紹介します
- OpenAI APIキーを使って実際に動かした結果をレポートします
- ウェブ検索・情報収集・ファイル出力など、Auto-GPTの動作を実際に確認します
- ChatGPTとAuto-GPTの違いや、この技術の可能性について考察します
Auto-GPTとは何か
Auto-GPTは、上位の「やりたいこと(ゴール)」を設定するだけで、裏側でChatGPTをぐるぐると動かしながら自動的に作業を進めてくれる仕組みです。
通常のChatGPTでは、ウェブ検索が必要な場合は人間が手動で行う必要があります。また、長期的な会話を続けると以前の内容を忘れてしまうという問題もあります。Auto-GPTはこうしたChatGPTの不足部分をラップして補強し、より賢く使うためのシステムです。
具体的には以下のことが可能です。
- ウェブを検索して情報を取得する
- 長期記憶・短期記憶を管理して保持する
- 取得した情報をまとめてファイルに出力する
- GPT-4を使ったテキスト生成と、GPT-3.5を使ったサマリー処理を組み合わせる
GitHubでの公開状況と注意点
Auto-GPTはオープンソースとして公開されており、誰でもコードを確認・利用できます。すでに非常に人気の高いプロジェクトになっています。
セットアップ時の重要な注意点として、masterブランチではなくstableブランチを使用してください。
git checkout stable
デモで確認できる動作の流れ
Auto-GPTのデモ動画では、以下のような流れで動作することが確認できます。
- 名前(Name)を設定する — AIに好きな名前をつける
- ロール(Role)を設定する — AIに役割を与える(例:「あなたはAIについて教える役割を持っています」)
- ゴール(Goal)を設定する — 達成したい目標を指定する(例:「Auto-GPTについて検索してGitHubを見つけ、それが何なのかを説明してauto-gpt.txtに書いてください」)
ロールとゴールを設定すると、Auto-GPTがそれを実現するために何をすべきかを自分で考え、自動的に動いてくれます。
デモでは以下の手順で自律的に動作しました。
- Googleで「Auto-GPT」を検索する
- 関連するウェブサイトをブラウジングしてGitHubプロジェクトを見つける
- GitHubページを分析する
- 分析結果をテキストファイルにまとめて書き出す
このように、人間がコピペなどの操作をしなくても、AIが自動で一連の作業をこなしてくれます。
セットアップ手順
必要なもの
- OpenAI APIキー(課金が必要)
- Python環境
- オプション:ElevenLabs APIキー(音声読み上げ機能)
- オプション:メモリバックエンド(LocalStorage、Redis、Pineconeなど)
実行環境の選択肢は以下の3つです。
- VS Code + Dev Containerを使う(最も簡単)
- Dockerで動かす
- PythonをインストールしてWindows上で直接動かす
リポジトリのクローンとブランチ切り替え
git clone <リポジトリURL>
cd Auto-GPT
git checkout stable
依存パッケージのインストール
pip install -r requirements.txt
Windowsで管理者権限エラーが出る場合は、ターミナルを管理者として実行してください。
pipが見つからない場合は、以下の手順でpipを再インストールします。
# get-pip.pyをダウンロードして実行
python get-pip.py
環境設定ファイルの作成
Auto-GPTフォルダ内にある .env.template をコピーして .env ファイルを作成します。
copy .env.template .env
.envファイルを開き、OPENAI_API_KEY の項目にOpenAIのAPIキーを貼り付けます。
注意: このAPIキーが漏洩すると誰でも使えてしまうため、取り扱いには十分注意してください。
音声読み上げ機能を使いたい場合は、ElevenLabsのAPIキーも設定します。ElevenLabsは無料でサインアップでき、APIキーはプロフィール画面から取得できます。
Auto-GPTの起動
python -m autogpt
実際に動かしてみた
AIの設定
起動すると、まずAIの名前とロールを入力するよう求められます。
- AI Name(名前) — 任意(例:
AUTOGPT) - Role(役割) — 例:「最新のAI関連ニュースをまとめる」
- Goals(ゴール) — 最大5つ設定可能。入力しない場合はロールに従って動作
動作の確認
起動後、Auto-GPTは自分で考えて行動を提案し、実行前に確認を求めてきます。
y を入力すると実行、y -N(例:y -10)と入力するとN回分まとめて実行します。
実際に動かしたところ、Auto-GPTは以下のように自律的に行動しました。
- AIニュースがまとまっているウェブサイトに直接アクセスする(Googleで検索するのではなく、知識から適切なサイトを選択)
- 情報収集後、サマリーを作成する計画を立てる
- Google検索APIを使って追加の情報を検索する
- GPTエージェントを使ってサマリーを作成しファイルに書き出す
出力ファイルの保存場所
出力ファイルは auto-gpt-workspace フォルダ内に保存されます。outputフォルダやlogsフォルダではないため注意が必要です。
実際に AI_News_Summary.txt というファイルが生成されており、収集した情報がまとめられていることを確認できました。
ChatGPTとの違い
Auto-GPTがやっていることは、理論上はChatGPTでも実現できます。ただし、その場合は人間が手動でGoogleを検索し、コンテンツをコピーしてChatGPTに貼り付け、要約を依頼するという手順が必要です。
Auto-GPTはこの一連の作業を人間の介入なしに自動化する点が大きな違いです。
まとめ
Auto-GPTは、OpenAI APIキーだけを設定すれば基本的な動作が確認できる、比較的セットアップの容易なツールです。ウェブの情報収集・分析・ファイル出力といった一連の作業を自律的に行う様子は、AIの可能性を大きく感じさせます。
現時点では英語での動作が中心となりますが、オープンソースプロジェクトであるため、日本語対応版なども今後登場してくることが期待されます。
また、ChatGPTのプラグインを使って外部と連携するアプローチと、Auto-GPTのようにAPIをラッピングして自動化するアプローチの両方が並行して発展しており、AI活用の幅はますます広がっています。ロールとゴールを設定するだけで作業を進めてくれるこの仕組みは、今後の業務自動化において非常に注目される技術といえるでしょう。