米ワシントン大学の研究者らが、機械学習を使って音声データから口の動きをリアルに再現するシステムを開発しました。
学習したデータを元に、口部分と音声だけをすり替えた合成映像を自動的に生成するというもの。インプットされた音声から、ベースとなる口の形を作った後、映像に当てはめる仕組みになっています。このシステムに関する論文を執筆したSupasorn Suwajanakorn氏によれば、口は人間が不自然さを感じやすく、「不気味の谷」に陥りやすい場所。しかし、発表された米国オバマ前大統領の合成映像はとてもリアルで、あたかも本当にしゃべっているかのように見えます。
このような合成は以前から可能だったものの、スタジオで複数人の口の動きを撮影する必要が。しかし、今回発表されたシステムはインターネット上の動画などに対応しており、低コストで使用できるようになっています。ちなみに、今回発表された合成映像にオバマ前大統領が採用されたのは、パブリックドメインの映像が何時間分も公開されているため。学習にはまだ膨大な量のデータが必要で、それをそろえるのが楽だったからというわけです。今後は、学習用映像を10分の1以下に減らし、1時間分で利用できるように改良するとしています。

仕組みを表した図

オバマ大統領が話している様子を、とてもリアルに再現しています


入力されたインタビュー映像は、構図が大きく異なるものも。音声のみを使うため、問題なく機能するようです
実用化の方向性としては、ビデオ通話への導入などが考えられるとのこと。接続状況が悪いと映像が乱れることがありますが、同システムを使えば、音声のみを使って高品質な合成映像を見せることができます。また、歴史的な人物がしゃべっている様子をリアルに再現したVR映像の制作にも活用できる可能性もあるとのこと。
(マッハ・キショ松)
コメントランキング
「ルートインの大浴場 最高」「設備が充実のドーミーイン」 “お風呂が最高”だと思う「ビジネスホテル」は?【アンケート実施中】(投票結果) | ライフスタイル ねとらぼ
東京都の「そば」の名店10選! 一番うまいと思う店はどこ?【人気投票実施中】(3/4) | 東京都 ねとらぼリサーチ:3ページ目
「友達にドーミーイン勧めてる」「至れり尽くせりな東横イン」 “サービスが最高”だと思う「ビジネスホテル」は?【アンケート実施中】 | ライフスタイル ねとらぼ
地元民が本当に住みやすいと思う「静岡県の市区町」ランキングTOP26! 第1位は「富士市」【2026年4月10日時点の投票結果】(1/6) | 静岡県 ねとらぼリサーチ
「初見で読めたら天才」 静岡県の“難読市町名”ランキング1位が難しすぎる「読めねぇよ」「知らないと無理」(3/3) | 東京都 ねとらぼリサーチ:3ページ目