しゃべった内容、リアルタイムで字幕化して映像に合成　ビデオ会議が便利になるシステムに注目集まる

耳が聞こえにくい人とのコミュニケーションが向上しそうです。

» 2020年05月23日 17時10分公開

[ねとらぼ]

　ビデオ会議やネット発表会が増える中、話した内容をリアルタイムで字幕化してWebカメラ映像に合成するシステムを開発する人が現れて注目を集めています。

　開発したのは筑波大学大学院修士課程の鈴木一平（@1heisuzuki）さん。カメラとマイクをオンにしてGoogle ChromeからWebサイトにアクセスすると、話したことをリアルタイムで音声認識してWebカメラの映像に字幕として表示します。

話した内容がリアルタイムで字幕に

カメラ表示やグリーンバック表示のありなしなども設定可能（サイトは随時アップデートしているとのこと）

　ブラウザの画面をキャプチャーしたり共有したりしてビデオ会議ツールに表示すると、字幕付きで会議に参加することが可能。音声認識結果のログをダウンロードすることもできます。ソースコードはGitHubで公開されています。

　鈴木さんが公開したデモ映像では、話している内容がかなりの速さと精度で字幕に変換されています。編集部でも試したところ、話したことがサクサクと文字に起こされて驚きました。

　鈴木さんはこのサイトの「元ネタ」として、落合陽一さんが投稿した動画を挙げています。落合さんは動画で、ビデオ会議で耳が聞こえにくい人とスムーズにコミュニケーションできるよう、Googleのアプリを使って音声を字幕化して映像に重ねる方法を紹介しています。

　同じく落合さんに触発された同志社大学研究員でピクシーダストテクノロジーズのリードエンジニア、長谷芳樹（@nagataniyoshiki）さんが開発した、PCとAndroid端末と無料ツールで音声を字幕化して映像に合成するシステムも注目を集めました。字幕のみならず映像と合成することで、聴覚障害者が字幕と唇の動きを併用して会話できると説明しています。こちらのデモ映像もかなりの精度で字幕がリアルタイムに生成されている様子が分かります。