advertisement
テキストを入力するだけで音声合成とフェイスモーション生成が同時にできるサービス「Koemotion(コエモーション)」がスタートしました。マイクロソフトの元女子高生AI「りんな」事業を引き継いだrinnaが提供しています。
Koemotionは、rinnaのAITuber(AI技術を用いたVTuber)「りんな」で用いられている音声合成とフェイスモーション生成の技術を発展させたもので、入力したテキストの感情予測・音声の合成・フェイスモーションの生成が可能。
音声合成には同社のKoeiromapを使用。106話者から収録した約110時間の音声を用い、通常、喜び、悲しみ、怒り、恐れ、驚き、囁きの7種類の音声を合成できるといいます。
KoemotionではKoeiromapで合成された音声に合わせたフェイス(顔)のキーポイントを3次元座標のモーションとして生成。この座標情報を用いることで、2D・3Dモデルのキャラクターの表情を音声と同期させて動かせるとしています。
rinnaはKoemotion APIを公開しており、ゲームのNPCのフルボイス化、リアルタイム音声対話システム、AITuberの配信などの利用シーンを想定。既にピクシブがロンチパートナーとして、ブラウザで自分の3Dキャラクターとフルボイスで会話できる技術デモ「ChatVRM」にKoemotion APIを活用しています。
Copyright © ITmedia, Inc. All Rights Reserved.