PC Watchの劉 尭氏が2026年4月21日に報じたところによると、AIベンチャーのSentiPulseと中国人民大学のAI研究チームが4月8日(現地時間)、バーチャルアバター「SUSU」を発表した。デジタルヒューマンの「不気味の谷」を克服することを目指した統合技術フレームワーク「SentiAvatar」に基づく成果だ。
なぜ今、デジタルヒューマンの自然な動きが重要なのか
デジタルヒューマンや3Dアバターとの会話では、口は動いているのに表情が硬く、身振りが発話内容と噛み合わないという「不気味の谷」の問題が長らく指摘されてきた。原因は、既存技術が「ジェネリックな動きをつなぎ合わせる」方式に依存していること。人間とロボットの協働、接客AI、ゲームキャラクターのリアル表現など用途が拡大するにつれ、この欠点がますます目立つようになっていた。
海外レビューのポイント:SentiAvatarが解決した3つの課題
PC Watchの報道によれば、研究チームはSentiAvatar開発にあたって3つの根本的な課題に直面していた。
1. 高品質データの不足 既存データセットは英語コーパスが中心で、中国語対話シナリオにおける全身動作データはほぼ皆無だった。研究チームは光学モーションキャプチャを活用し、同期音声・動作注釈付きテキスト・全身動作・表情を網羅した独自データセット「SuSuInterActs」を構築。21,000セグメント・37時間分のマルチモーダル対話コーパスを整備した。
2. 複雑な複合表現への対応力の低さ 「手を振る」程度の動作はモデルが理解できても、「しようがなさそうに肩をすくめる」のような複合表現になった途端、理解能力が急低下するという問題があった。
3. 意味とリズムという異なる時間スケール問題 言葉の「意味」は一文単位で生まれ、「リズム」はフレーム単位で発生する。この2つを単一モデルに処理させると、動きが均一になったり発話タイミングとズレたりする。PC Watchによれば、従来の音声起点モデル(EMAGE・TalkShow)は文の解釈に欠け、テキスト起点モデル(T2M-GPT・MoMask)は音声処理を省略しており、どちらも根本解決に至っていなかったという。
プランニング・インフィル方式による技術的突破口
これらの課題に対し、SentiAvatarは「プランニング・インフィル方式のデュアルチャネル並列アーキテクチャ」を採用。身体の動きと顔の表情を別々のチャネルで処理しながら並列実行することで、意味とリズムの両方を自然に統合することに成功した。バックボーンにはQwen-0.5Bを採用し、2,048個のアクショントークンと音声トークンを含む拡張語彙で20万以上のアクションシーケンス(約676時間)を事前学習している。
PC Watchの報道では、他の主流AIモデルとの比較で「最も自然な動き」を生成できたとされており、X(旧Twitter)上で公開されたデモ映像でその成果を確認できる。
日本市場での注目点
SentiAvatarフレームワーク、SuSuInterActsデータセット、事前学習済みモデルはすでにGitHubでオープンソース公開されており、世界中の研究者・開発者が即座に利用可能だ。商用製品ではないため日本での直接の発売や価格設定は存在しないが、VTuber関連技術・接客AIロボット・ゲームキャラクター開発などの現場では、このフレームワークが実装選択肢として浮上してくる可能性が高い。
また、中国語コーパス中心の設計だが、マルチモーダル対話コーパスの構築手法そのものは他言語への展開に応用できる。日本語デジタルヒューマンへの転用を模索する開発者にとっても、参照すべき先行事例となるだろう。
筆者の見解
「意味とリズムを別チャネルで並列処理する」というアプローチは、問題の構造を正確に把握した上での合理的な設計だ。「一つのモデルに何でもやらせようとして失敗する」という典型的な落とし穴を、アーキテクチャレベルで回避している点は素直に評価できる。
AIエージェントが自律的にタスクをこなす時代において、その「顔」となるデジタルヒューマンの質は無視できないファクターになりつつある。エージェントが人間の代わりに会話・説明・交渉をこなす場面が増えるほど、不自然な動作はユーザー体験の致命的な弱点になる。SentiAvatarのような技術は「精度向上」にとどまらず、「エージェントが社会に出るための前提条件」を整えるものとして捉えるべきだろう。
オープンソースでの公開という判断も評価したい。研究成果を囲い込まずに公開することで、技術の進化が加速するサイクルが生まれる。この知見が日本の開発者コミュニティにも広まることを期待したい。
出典: この記事は 「不気味の谷」を越えたデジタルヒューマン「SUSU」、中国発のAI技術 の内容をもとに、筆者の見解を加えて独自に執筆したものです。