Foundry Labsが本気を見せた：音声認識WER 3.9%の「MAI-Transcribe-1」など自社開発AIモデル3種を一挙発表

MicrosoftがAzure AI Foundry Labsの2026年4月版アップデートを公開した。音声認識モデル「MAI-Transcribe-1」、音声生成モデル「MAI-Voice-1」、そしてオープンソースの多言語テキスト埋め込みモデル「harrier-oss-v1」という3つのモデルが一挙に登場した。

Foundry Labsはいわば「Microsoftの研究成果を最速でAzureに乗せる実験場」だ。今回の発表は、モデル選択の幅という観点でAzure AI Foundryをより強固なプラットフォームに押し上げる動きと捉えられる。

MAI-Transcribe-1：WER 3.9%、25言語対応の音声認識モデル

最も注目を集めるのが「MAI-Transcribe-1」だ。Word Error Rate（単語誤り率）わずか3.9%という数値は、音声認識の世界では際立つスコアである。業務ユースで実用に耐える水準として一般に「WER 5%以下」が目安とされることが多く、その基準を大きく下回っている。

対応言語は25言語。日本語が含まれているかどうかは現時点で明示されていないが、多言語会議議事録の自動化やコールセンター転記、医療・法務分野での音声テキスト化といった実業務への応用が視野に入る。Azure AI Speech（Cognitive Services）との統合が進めば、既存のM365環境との親和性もさらに高まるだろう。

MAI-Voice-1：1秒で60秒分の音声を生成

「MAI-Voice-1」は音声合成（Text-to-Speech）モデルで、1秒という処理時間で60秒分の音声を生成できる点がセールスポイントだ。リアルタイム性を必要とするアプリケーション——チャットボットの音声応答、インタラクティブなナレーション生成、コンテンツの多言語音声化——において、遅延の壁を大幅に下げるインパクトがある。

音声品質の詳細なベンチマークはまだ公開されていないが、推論速度という観点ではユーザー体験を左右する重要な指標であり、実際の製品組み込みを意識した数値設定とみられる。

harrier-oss-v1：オープンソースの多言語テキスト埋め込みモデル

「harrier-oss-v1」は多言語対応のテキスト埋め込みモデルとして公開された。「oss（Open Source Software）」とある通り、コードとウェイトがオープンに提供される点が大きい。

テキスト埋め込みはRAG（Retrieval-Augmented Generation）構成の根幹を担う要素であり、社内ドキュメント検索、FAQ自動回答、コンテンツレコメンデーションといった業務AI構築において欠かせない。オープンソースで提供されれば、オンプレミスでの運用やコスト最適化を求める企業にとっても選択肢が広がる。

実務への影響

エンジニア・AI開発者へ

今回の発表で最も意識すべきは「Foundry Labs = 実験」という立て付けだ。Labsのモデルは本番サービスへの昇格前の段階にあることが多く、SLA（稼働率保証）や価格体系が確定していないケースもある。PoC段階での評価は積極的に進めつつ、本番移行のタイミングはGAステータスを確認してから判断する運用が基本になる。

IT管理者・アーキテクトへ

Azure AI Foundryは今や単一ベンダーのモデルカタログではなく、Microsoft自社モデル・サードパーティモデル・オープンソースモデルが混在するプラットフォームへと進化している。ガバナンスの観点では、どのモデルをどのワークロードに使うかのポリシー整備が今後の重要課題になる。Microsoft Entra IDによるアクセス制御との連携を軸に、モデル利用の可視化と制御の仕組みを今から設計しておきたい。

コスト観点

自社開発モデルがAzure AIに増えることは、長期的にはプラットフォームコストの安定化につながる可能性がある。サードパーティモデルはAPI呼び出しコストが変動しやすいが、Microsoft自社モデルはAzure内で最適化されたインフラで動かせるため、大規模利用時のコスト設計がしやすくなると期待できる。

筆者の見解

Foundry Labsのアップデートを眺めていて率直に感じるのは「やっと本丸に入ってきた」という手応えだ。これまでAzure AIはサードパーティのモデルを取りそろえた「百貨店」として機能してきたが、自社ブランドのモデルを並べ始めたことで、プラットフォーム競争に正面から参戦する姿勢が見えてきた。

Microsoftが持つ強みは、モデルの賢さではなく「安全に動かせる仕組み」だと筆者は見ている。Entra IDを軸としたアイデンティティ管理、コンプライアンス基盤、エンタープライズ向けのSLA——これらはどの研究機関も短期間では追いつけない資産だ。そこにMAIシリーズのような自社モデルが加わることで、「Azureの上でどのAIを動かすか選べる」という設計の自由度が広がる。これは筆者がFoundry経由のAI活用を推している理由と完全に重なる。

ただし、一点だけ正直に言っておきたい。WER 3.9%というスコアや1秒で60秒の音声生成という数値は確かに魅力的だ。しかし、Labsはあくまで実験場であり、これらのモデルが本番品質としてGAされ、日本語を含む多言語で安定的に動作することが確認されるまでは、慎重に距離を置くのが賢明だ。期待が先走って評価を見誤るのは、エンジニアとして一番やってはいけないことだから。

Microsoftにはこの方向性でどんどん攻めていってほしい。プラットフォームとしての強みを活かしながら、AIモデルの品質でも存在感を示せる力は十分にある。

出典: この記事は What’s new in Foundry Labs — April 2026 の内容をもとに、筆者の見解を加えて独自に執筆したものです。

MAI-Transcribe-1：WER 3.9%、25言語対応の音声認識モデル#

MAI-Voice-1：1秒で60秒分の音声を生成#

harrier-oss-v1：オープンソースの多言語テキスト埋め込みモデル#

実務への影響#

筆者の見解#

MAI-Transcribe-1：WER 3.9%、25言語対応の音声認識モデル

MAI-Voice-1：1秒で60秒分の音声を生成

harrier-oss-v1：オープンソースの多言語テキスト埋め込みモデル

実務への影響

筆者の見解