Azure OpenAI 入門基礎講座 Part5 - 音声で会話する

この記事の内容

  • Azure OpenAI のチャットプレイグラウンドで「プレイグラウンド設定」を使い、音声入出力を有効にする方法を解説します
  • Azure の Speech サービス(音声リソース)を新規作成する手順を紹介します
  • 音声テキスト変換(Speech-to-Text)とテキスト読み上げ(Text-to-Speech)それぞれの設定方法を説明します
  • ブラウザのマイクを使った音声入力デモの様子と、実際の動作上の注意点をまとめます
  • 次回予告として、RAG(自分のデータを追加して質問する機能)についても触れます

プレイグラウンド設定とは

Azure OpenAI のチャットプレイグラウンドには、通常のテキスト操作とは少し異なる「プレイグラウンド設定」という機能があります。この設定を開くと、スピーチリソースの選択が求められます。

これは Azure OpenAI サービスそのものではなく、Azure の**音声サービス(Speech Service)**と連携して動作する機能です。具体的には次のことが可能になります。

  • 音声をテキストに変換する(Speech-to-Text)
  • テキストを音声で読み上げる(Text-to-Speech)

Speech リソースの作成

まだ Speech リソースを作成していない場合は、Azure 管理ポータルから新規作成します。

手順

  1. Azure 管理ポータルにアクセスします
  2. Azure AI サービス の中から「音声サービス」を選択します
  3. 「作成」をクリックし、以下の項目を入力します
項目設定例
リソースグループ任意(テスト用であれば既存のものでも可)
リージョン任意
名前任意
価格レベルFree または Standard(今回は Standard を選択)
ネットワークすべてのネットワークから許可
  1. タグは任意で入力し、「作成」をクリックします
  2. デプロイが完了したらリソースページに移動し、利用可能な状態であることを確認します

補足: Speech サービスには「スピーチスタジオ」という独立した管理画面があり、そこからモデルの選択やテスト実行なども行えます。


プレイグラウンド設定の構成

Speech リソースの作成が完了したら、チャットプレイグラウンドに戻って設定を行います。リソースが反映されていない場合は、一度ページをリロードしてから再度設定画面を開いてください。

設定手順

  1. プレイグラウンドの「設定」を開きます
  2. 言語 を「Japanese」に変更します
  3. サブスクリプションスピーチリソース を選択します
  4. 「音声テキスト変換を有効にする」にチェックを入れます
  5. 「テキスト読み上げを有効にする」にチェックを入れます(利用する声を選択します)
  6. 「音声チャットによってサブスクリプションの使用量が発生することを認めます」にチェックを入れます
  7. 「保存」をクリックします

注意: テキスト読み上げの音声選択は、日本語設定時に一時的に選択できないことがあります。一度設定を保存して音声入力を試してから再度設定画面を開くと選択できるようになる場合があります。これは現時点での動作上の制限・バグと考えられます。


音声入力を使ってみる

設定が完了すると、チャット入力欄の下にマイクアイコンが表示されます。このマイクボタンをクリックすることで、ブラウザからマイクの使用許可が求められます。許可すると、声で入力できるようになります。

実際の操作例

マイクボタンをクリックして次のように話しかけると、音声がテキストに変換されて入力欄に表示されます。

入力されたテキストをもとに Azure OpenAI が応答を返し、テキスト読み上げが有効な場合は応答内容も音声で読み上げられます。


うまく動作しない場合の確認ポイント

音声入力がうまくいかないときは、Windows 側の設定を確認してみてください。

  • サウンドの入力設定: Windows のサウンド設定で「入力」デバイスとして使用するマイクが正しく選択されているか確認します
  • マイクのボリューム: 入力レベルが適切に設定されているか確認します
  • 他のアプリケーションとの競合: OBS などの録画・配信ソフトを先に起動していると、マイクが占有されてブラウザから使用できなくなる場合があります。その場合は他のアプリケーションを終了してから試してみてください

テキスト読み上げのデモ

テキスト読み上げを有効にした状態でやり取りをすると、Azure OpenAI の応答がそのまま音声で読み上げられます。たとえば次のように話しかけると、AIが音声で返答してくれます。

YouTube
AIYouTube

このように、ブラウザ上のチャットプレイグラウンドで音声による対話が実現できます。


次回予告:RAG(データの追加)

チャットプレイグラウンドには「データを追加する」という機能もあります。これは自分のデータを Azure OpenAI に組み合わせて、そのデータに基づいた質問応答ができるようにする機能で、RAG(Retrieval-Augmented Generation) と呼ばれる手法に該当します。

エンタープライズ用途において特に注目されているトピックであり、次回はこの機能を取り上げる予定です。


まとめ

今回は Azure OpenAI のチャットプレイグラウンドで音声対話を実現する「プレイグラウンド設定」を解説しました。Azure の Speech サービスを組み合わせることで、音声入力(Speech-to-Text)とテキスト読み上げ(Text-to-Speech)が利用可能になります。

現時点では日本語のテキスト読み上げ音声の選択に若干の不安定さがあるものの、音声でチャットプレイグラウンドに入力し、AI の応答を音声で受け取るという体験はすでに実現できています。Azure 上のさまざまなサービスを組み合わせることで、より豊かな AI 体験が構築できる点を確認できました。