コンピューターに日本語をしゃべらせて遊ぶ

この記事の内容

今回は、パソコンに音声合成で言葉をしゃべらせて遊んでみます。

きっかけはAzureに「Text to Speech」というサービスがあり、好きな言葉をしゃべらせることができるというものです。最近は音声の響きが自然になってきているという話を聞いたので、実際に聴いてみようというわけです。

いきなりAzureのサービスに行ってもよいのですが、まずは昔からある機能の方から試してみることにします。

まず試すのは、VBScriptでテキストをしゃべらせる昔ながらの簡単なプログラムです。

テキストを入力してしゃべらせてみると、ちゃんとしゃべってはくれます。ただ、いかにもコンピューターっぽい、機械的な声という感じがします。昔からこのような機能があったわけですが、やはり自然な音声とはほど遠い印象です。

次に、Windowsに標準で搭載されているナレーター機能を試してみます。

ナレーターは、Windowsキーを押しながら特定のキーを押すことで起動できます。また、Windowsキー + Ctrl + Enter でも起動して読み上げさせることができます。

こちらも読み上げてはくれるのですが、やはりコンピューターっぽい感じが残ります。実は筆者も今回初めてこの機能の存在を知ったくらいで、普段はあまり使っていない機能です。

いよいよ本命のAzure Text to Speechです。複数の音声が用意されており、今回はいくつかを比較してみました。

評価が高いとされる音声から順に試してみると、最初の方の音声はなかなか良くなってきているものの、「もう一声」という感じもします。

一方、品質の高い音声に切り替えてみると、今度はかなり良い感じです。非常に自然な読み上げで、聴いていると人間が読み上げているのとほとんど同じように聞こえるレベルになっています。

音声の品質が大きく異なるため、用途に合わせて音声を選ぶことが重要です。

今回試してみて改めて感じたのは、音声合成技術の進化の速さです。

クラウドサービスを使ってこれだけ自然な音声で読み上げができるというのは、なかなかすごい時代になってきたと感じます。Azure以外にも音声合成サービスはたくさんありますが、ここまでの品質が出るのであれば、Azureのサービスも含めていろいろな活用方法が考えられそうです。

また、音声はプログラムに組み込んで自動でしゃべらせることも簡単にできます。自分の声に似せたモデルを作って、書いた文章をスムーズに読み上げさせるという使い方も面白いかもしれません。

今回はコンピューターに日本語をしゃべらせる音声合成技術を、昔ながらの手法からAzureの最新サービスまで順に試してみました。

VBScriptやWindowsナレーターといった従来の機能と比較すると、Azure Text to Speechの音声品質は格段に向上しており、ほぼ人間の声と区別がつかないレベルに近づいています。

あまり音声合成の変化を意識して聴いたことがない方は、「こんなに良くなっているのか」と驚くと思います。ブラウザから簡単に試せるデモも多く用意されていますし、プログラムに組み込んで活用することも容易です。興味があればぜひ試してみてください。