ワシントン大学、機械学習で“口パク映像”を生成するシステム発表　音声から口の動きをリアルに再現して合成映像に

偉人がしゃべるVR映像の制作などに応用できるとのこと。

　米ワシントン大学の研究者らが、機械学習を使って音声データから口の動きをリアルに再現するシステムを開発しました。

　学習したデータを元に、口部分と音声だけをすり替えた合成映像を自動的に生成するというもの。インプットされた音声から、ベースとなる口の形を作った後、映像に当てはめる仕組みになっています。このシステムに関する論文を執筆したSupasorn Suwajanakorn氏によれば、口は人間が不自然さを感じやすく、「不気味の谷」に陥りやすい場所。しかし、発表された米国オバマ前大統領の合成映像はとてもリアルで、あたかも本当にしゃべっているかのように見えます。

　このような合成は以前から可能だったものの、スタジオで複数人の口の動きを撮影する必要が。しかし、今回発表されたシステムはインターネット上の動画などに対応しており、低コストで使用できるようになっています。ちなみに、今回発表された合成映像にオバマ前大統領が採用されたのは、パブリックドメインの映像が何時間分も公開されているため。学習にはまだ膨大な量のデータが必要で、それをそろえるのが楽だったからというわけです。今後は、学習用映像を10分の1以下に減らし、1時間分で利用できるように改良するとしています。

仕組みを表した図

オバマ大統領が話している様子を、とてもリアルに再現しています

入力されたインタビュー映像は、構図が大きく異なるものも。音声のみを使うため、問題なく機能するようです

　実用化の方向性としては、ビデオ通話への導入などが考えられるとのこと。接続状況が悪いと映像が乱れることがありますが、同システムを使えば、音声のみを使って高品質な合成映像を見せることができます。また、歴史的な人物がしゃべっている様子をリアルに再現したVR映像の制作にも活用できる可能性もあるとのこと。

（マッハ・キショ松）

「3フィート先に友人がいます」――スマホに映った状況を読み上げる視覚障害者向けアプリ「Seeing AI」　MSがリリース
AIが周囲の状況を分析し、音声で伝えてくれます。
表情や動きで喜怒哀楽を表現するAIロボット「COZMO」登場
1000を超えるパターンで喜怒哀楽を表現し、人間と自然なコミュニケーションをとることができるという。
Google DeepMind、AIに人体の動きを教育　障害物を越えるための最善の動作を自力で考えるように
バランスをとろうと手足をばたつかせる様子がユーモラス。
ヤフー、プロ野球ホークス戦チケット販売に価格変動制導入　AIの需要予測をもとに各試合の観戦料を設定
過去の対戦成績やリーグ内順位をもとに、AIが需要を予測して価格を設定。
Googleの作画AIにさらなる進展　ユーザーが描きかけた落書きに線を足して完成してくれる
横棒1本引いただけで、草木を描き足して庭の絵にしてくれました。
居眠り絶対できない　顔認識AIで授業中の集中度を数値化、仏ビジネススクールで導入開始
まぶたにマジックで目を描く作戦が通用するかは不明。

ワシントン大学、機械学習で“口パク映像”を生成するシステム発表　音声から口の動きをリアルに再現して合成映像に

関連記事

関連リンク

記事ランキング

ワシントン大学、機械学習で“口パク映像”を生成するシステム発表 音声から口の動きをリアルに再現して合成映像に

関連記事

関連リンク

記事ランキング

ワシントン大学、機械学習で“口パク映像”を生成するシステム発表　音声から口の動きをリアルに再現して合成映像に