Azure AI SpeechにVoice Live API登場!その他更新沢山。

この記事の内容

  • Azure AI Speechの最新アップデートとして「Voice Live API」がパブリックプレビューで公開されました
  • Voice Live APIを使うと、音声で対話するAIエージェント(ボイスエージェント)を簡単に構築できます
  • 150言語・600以上の音声に対応し、GPT-4oなどの生成AIモデルをバックエンドとして選択できます
  • ビデオ翻訳サービスやHDボイスのGAなど、Voice Live API以外にも多数のアップデートがあります
  • Azure AI Agent ServiceやSemantic Kernelとのシームレスな統合も実現しています

Voice Live APIとは

Microsoft Buildの開催に合わせて、Azure AI Speechに多数の新機能が発表されました。その中でも特に注目すべき機能が「Voice Live API」です。このAPIはパブリックプレビューとして公開されており、音声で対話するAIエージェント(ボイスエージェント)を構築するために特化しています。

ユーザーの発話を認識し、その内容に応じて自然な音声で応答を返す、いわゆるSpeech-to-Speechの対話を実現します。テキストベースのチャットボットはすでに広く普及していますが、Voice Live APIによってよりスムーズで自然な音声対話が可能なエージェントの構築が現実のものとなります。特に顧客対応シナリオでの活用が期待されます。

Voice Live APIの主な特徴

リアルタイムで自然な音声対話

Voice Live APIは遅延なくスムーズな会話を実現します。ユーザーが話しかけると、その内容を即座に認識してAIが応答を生成し、自然な音声で返答します。

多言語サポート

150の言語に対応しており、グローバルな利用が可能です。

豊富な音声オプションとカスタマイズ

600以上の音声から選択でき、性別・年齢・国籍など多様な音声スタイルが用意されています。さらに独自のカスタムボイスを作成することも可能です。

アバター連携

話す内容に合わせて動くアバターと組み合わせることもできます。

バックエンドの生成AIモデル

応答内容の生成には、バックエンドで動作する生成AIモデルが利用されます。ビルトインモデルとして以下がサポートされています。

  • GPT-4 Real-Time
  • GPT-4o mini Real-Time
  • GPT-4
  • GPT-4o mini

さらにファインチューニングにも対応しており、特定のドメイン知識(例:店舗の営業時間・定休日・予約内容など)を学習させることで、より専門的な対話が可能になります。

自然な会話を支える追加機能

Voice Live APIにはリアルな会話体験を実現するための機能が多数搭載されています。

  • ノイズ抑制: 周囲の雑音を除去し、クリアな音声入力を実現
  • エコーキャンセル: スピーカーからの音声が再入力されることを防止
  • 割り込み検知: ユーザーが話し始めたことを検知して、自然な会話の流れを維持

他サービスとの統合

Voice Live APIはAzureの各種サービスやフレームワークとシームレスに統合できます。

  • Azure AI Agent Service
  • Semantic Kernel
  • Azure Communication Services

たとえばAzure Communication Servicesと連携することで、顧客からの電話に自動で応答するボイスエージェントを構築するといったシナリオも実現できます。

その他の主要なアップデート

Voice Live API以外にも、多くの機能がGA(一般提供開始)となり、機能強化されています。

ビデオ翻訳サービスがGA

ある言語で話されている動画を別の言語に自動で翻訳するサービスがGAとなりました。本番環境での利用が可能です。

会話用のHDボイスがGA

高品質でトレーニングされたHD(High Definition)ボイスがGAしました。この非常に自然な音声はMicrosoft 365 Copilotでも採用されています。M365 Copilotに搭載されている音声で概要を説明する「Audio Overview」機能は、今後Copilot Notebook・Word・OneDriveでも利用可能になる予定です。

文字起こし(Transcription)の機能強化

新たな言語のサポートが追加されるなど、文字起こし機能が強化されています。

Speech Studio(Webインターフェース)のGAと機能強化

テキストからの音声合成やアバターの操作を行うためのWebインターフェース「Speech Studio」がGAし、機能が強化されました。カスタムアバターを作成・管理するポータルも本番利用が可能です。

まとめ

Azure AI Speechは今回のアップデートで大幅にパワーアップしました。Voice Live APIの登場により、音声で対話するAIエージェントがより手軽に、かつ高度に構築できる時代が到来しています。

150言語・600以上の音声への対応、GPT-4oなどの生成AIモデルとの連携、Azure Communication Servicesを使った電話対応ボイスエージェントの構築など、活用シナリオは非常に幅広いです。ビデオ翻訳サービスやHDボイスのGAなど、その他のアップデートも含めて、Azure AI Speechはより実用的なサービスへと進化しています。

音声AIエージェントに興味のある方は、ぜひAzureの公式ドキュメントでVoice Live APIの詳細を確認してみてください。