Live Interpreter APIがPublic Preview！Azure AIでリアルタイム多言語翻訳が実現

この記事の内容

Azure AIの新機能「Live Interpreter API」がパブリックプレビューとして公開されました
入力言語の指定不要で、76言語・143ロケールに対応したリアルタイム音声翻訳が可能です
話者本人の声に近いトーンで翻訳する「パーソナルボイス」機能を備えています
コンタクトセンター、オンライン会議、教育、ライブ配信など多様なシーンへの活用が期待されます
Azureの契約があればクイックスタートガイドを通じてすぐに利用を開始できます

Live Interpreter APIとは

Azure AI FoundryブログにてAnouncing: Live Interpreter API now in Public Previewとして発表された本機能は、Azure Speech Translationをベースとした革新的な新機能です。

リアルタイムで多言語コミュニケーションを手軽に実現することを目的としており、使用されている言語を入力設定なしで自動的に識別し、話している人のスタイルやトーンを保持した自然な声で低遅延の音声翻訳を提供します。

主な特徴

入力言語の指定が不要

会話に参加する人がどの言語を話していても、APIが自動で言語を識別して翻訳を開始します。事前に言語を設定したり、セッションを切り替えたりする必要がありません。

パーソナルボイス対応

翻訳後の音声は、元の話者の声に近いトーンやイントネーションで再現されます。機械的な読み上げではなく、話者本人が話しているような自然な印象を維持できます。

幅広い言語カバレッジ

現時点で以下の規模に対応しています。

入力言語: 76言語
ロケール（地域・方言）: 143ロケール

同じ言語でも地域によって話し方が異なる場合があります。Live Interpreter APIはこうした細かな違いにも対応しています。

人間の通訳レベルの低遅延

従来の機械翻訳と比較して遅延が大幅に改善されており、リアルタイムで自然な会話が可能です。

エンタープライズ向け機能

企業利用を見据えた同意管理機能も備えており、ビジネスシーンでの導入も考慮されています。

活用シーン

多言語コンタクトセンター

世界中の顧客からさまざまな言語で問い合わせが届くカスタマーサポート業務において、言語ごとにメニューを切り替えたりセッションを再起動したりすることなく、スムーズな対応が可能になります。

オンライン会議・グローバルイベント

Teams会議やグローバルイベントでは、参加者がそれぞれ母国語で話しても、Live Interpreter APIがリアルタイムで各自の言語に変換します。より包括的で多様な会議体験が実現します。

多言語クラスルーム

スマートヘッドフォンを活用すれば、学生が講義を自分の母国語で聞くことも可能になります。講師のトーンや話すスピードも維持されるため、内容の理解を深めやすくなります。

ソーシャルコマース・ライブ配信

コンテンツクリエイターがグローバルな視聴者に向けて配信する際、リアルタイム翻訳によって個性や語り口を保ちながら世界中に発信できます。

導入のしやすさと対応状況

Azureの契約があれば、すぐに使い始められるクイックスタートガイドが用意されています。コードもシンプルな構成になっており、導入のハードルが低い点が特徴です。

現時点では対応リージョンは限られていますが、日本も対象リージョンに含まれています。

仕様面では、入力言語は複数を同時検出できますが、出力のターゲット言語は1つを選択する形式となっています。

まとめ

「Live Interpreter API」は、言語が異なる人々のコミュニケーションをリアルタイムで支援するAzure AIの革新的なサービスです。76言語・143ロケールへの対応、パーソナルボイス機能、低遅延翻訳という三拍子が揃っており、コンタクトセンターから教育、ライブ配信まで幅広いシーンへの活用が期待されます。

インバウンド需要の高まりやビジネスのグローバル化が加速する中、これまで複雑だった多言語対応がほぼ自動で行える時代になりつつあります。Azure AIの進化をぜひ体感してみてください。