Azure OpenAI 入門基礎講座 Part5 - 音声で会話する

この記事の内容

Azure OpenAI のチャットプレイグラウンドには、通常のテキスト操作とは少し異なる「プレイグラウンド設定」という機能があります。この設定を開くと、スピーチリソースの選択が求められます。

これは Azure OpenAI サービスそのものではなく、Azure の**音声サービス（Speech Service）**と連携して動作する機能です。具体的には次のことが可能になります。

まだ Speech リソースを作成していない場合は、Azure 管理ポータルから新規作成します。

項目	設定例
リソースグループ	任意（テスト用であれば既存のものでも可）
リージョン	任意
名前	任意
価格レベル	Free または Standard（今回は Standard を選択）
ネットワーク	すべてのネットワークから許可

補足: Speech サービスには「スピーチスタジオ」という独立した管理画面があり、そこからモデルの選択やテスト実行なども行えます。

Speech リソースの作成が完了したら、チャットプレイグラウンドに戻って設定を行います。リソースが反映されていない場合は、一度ページをリロードしてから再度設定画面を開いてください。

注意: テキスト読み上げの音声選択は、日本語設定時に一時的に選択できないことがあります。一度設定を保存して音声入力を試してから再度設定画面を開くと選択できるようになる場合があります。これは現時点での動作上の制限・バグと考えられます。

設定が完了すると、チャット入力欄の下にマイクアイコンが表示されます。このマイクボタンをクリックすることで、ブラウザからマイクの使用許可が求められます。許可すると、声で入力できるようになります。

マイクボタンをクリックして次のように話しかけると、音声がテキストに変換されて入力欄に表示されます。

入力されたテキストをもとに Azure OpenAI が応答を返し、テキスト読み上げが有効な場合は応答内容も音声で読み上げられます。

音声入力がうまくいかないときは、Windows 側の設定を確認してみてください。

サウンドの入力設定: Windows のサウンド設定で「入力」デバイスとして使用するマイクが正しく選択されているか確認します
マイクのボリューム: 入力レベルが適切に設定されているか確認します
他のアプリケーションとの競合: OBS などの録画・配信ソフトを先に起動していると、マイクが占有されてブラウザから使用できなくなる場合があります。その場合は他のアプリケーションを終了してから試してみてください

テキスト読み上げを有効にした状態でやり取りをすると、Azure OpenAI の応答がそのまま音声で読み上げられます。たとえば次のように話しかけると、AIが音声で返答してくれます。

このように、ブラウザ上のチャットプレイグラウンドで音声による対話が実現できます。

チャットプレイグラウンドには「データを追加する」という機能もあります。これは自分のデータを Azure OpenAI に組み合わせて、そのデータに基づいた質問応答ができるようにする機能で、RAG（Retrieval-Augmented Generation） と呼ばれる手法に該当します。

エンタープライズ用途において特に注目されているトピックであり、次回はこの機能を取り上げる予定です。

今回は Azure OpenAI のチャットプレイグラウンドで音声対話を実現する「プレイグラウンド設定」を解説しました。Azure の Speech サービスを組み合わせることで、音声入力（Speech-to-Text）とテキスト読み上げ（Text-to-Speech）が利用可能になります。

現時点では日本語のテキスト読み上げ音声の選択に若干の不安定さがあるものの、音声でチャットプレイグラウンドに入力し、AI の応答を音声で受け取るという体験はすでに実現できています。Azure 上のさまざまなサービスを組み合わせることで、より豊かな AI 体験が構築できる点を確認できました。