Mistralがオープンソースの音声生成モデル「Voxtral TTS」を公開——スマートウォッチにも載る軽量設計でElevenLabsやOpenAIに挑む

フランスのAI企業Mistralは2026年3月26日、新しいオープンソースのテキスト読み上げ（TTS）モデル「Voxtral TTS」を公開した。音声AIアシスタントや企業向けカスタマーサポートなどの用途を想定しており、ElevenLabs、Deepgram、OpenAIなどの音声AI分野の主要プレイヤーとの競争に本格的に参入する形となる。

9言語対応・5秒のサンプルで声を再現

Voxtral TTSは英語・フランス語・ドイツ語・スペイン語・オランダ語・ポルトガル語・イタリア語・ヒンディー語・アラビア語の9言語をサポートする。特筆すべきは、わずか5秒未満の音声サンプルからカスタムボイスを生成できる点だ。微妙なアクセント、抑揚、イントネーション、話し方の癖といった特徴を捉えることができ、言語を切り替えても声の個性を維持する。吹き替えやリアルタイム翻訳といったユースケースにも有効だ。

Mistral AIでサイエンスオペレーション担当VPを務めるPierre Stock氏は「顧客から音声モデルの要望が続いていた。スマートウォッチやスマートフォン、ラップトップといったエッジデバイスにも載る小型モデルを構築した。コストは他のどの製品の何分の一かで、性能は最先端レベルだ」とTechCrunchに語った。

エッジ推論を意識したリアルタイム性能

モデルはMinistral 3Bをベースとしており、軽量ながらリアルタイム処理に最適化されている。500文字・10秒の音声生成におけるTTFA（最初の音声出力までの時間）は90ミリ秒、リアルタイムファクター（RTF）は6倍——つまり10秒分の音声をわずか約1.6秒でレンダリングできる。

この性能はオンデバイス推論を重視する日本のIoT・スマートデバイス市場でも注目される可能性がある。スマートスピーカーや産業用ロボット、コールセンター向け音声自動応答など、低遅延が求められる場面への適用が考えられる。

音声プラットフォームの完全統合を目指す

Mistralは2026年初頭に大量バッチ処理向けとリアルタイム低遅延向けの2種類の音声認識（文字起こし）モデルをリリース済みだ。今回のVoxtral TTSにより、認識から生成までをカバーする音声プロダクトのフルスイートを目指す戦略が鮮明になった。

Stock氏は「音声・テキスト・画像といったマルチモーダルな入出力ストリームを扱えるエンド・ツー・エンドのプラットフォームを構築する計画だ。エージェンティックシステムにオーディオ入出力を統合することで、より豊富な情報を扱えるようになる」と述べた。

Mistralの差別化戦略はオープンソースとカスタマイズ性にある。企業がモデルを自社ニーズに合わせてファインチューニングできる点は、クローズドなAPIサービスでは難しい柔軟性を提供する。音声AIの商用活用を検討している企業にとって、コスト・カスタマイズ・オープンソースを三拍子揃えたVoxtral TTSは有力な選択肢となりそうだ。

元記事: Mistral releases a new open source model for speech generation

9言語対応・5秒のサンプルで声を再現#

エッジ推論を意識したリアルタイム性能#

音声プラットフォームの完全統合を目指す#

9言語対応・5秒のサンプルで声を再現

エッジ推論を意識したリアルタイム性能

音声プラットフォームの完全統合を目指す