ビデオ会議やネット発表会が増える中、話した内容をリアルタイムで字幕化してWebカメラ映像に合成するシステムを開発する人が現れて注目を集めています。
開発したのは筑波大学大学院修士課程の鈴木一平(@1heisuzuki)さん。カメラとマイクをオンにしてGoogle ChromeからWebサイトにアクセスすると、話したことをリアルタイムで音声認識してWebカメラの映像に字幕として表示します。
ブラウザの画面をキャプチャーしたり共有したりしてビデオ会議ツールに表示すると、字幕付きで会議に参加することが可能。音声認識結果のログをダウンロードすることもできます。ソースコードはGitHubで公開されています。
鈴木さんが公開したデモ映像では、話している内容がかなりの速さと精度で字幕に変換されています。編集部でも試したところ、話したことがサクサクと文字に起こされて驚きました。
鈴木さんはこのサイトの「元ネタ」として、落合陽一さんが投稿した動画を挙げています。落合さんは動画で、ビデオ会議で耳が聞こえにくい人とスムーズにコミュニケーションできるよう、Googleのアプリを使って音声を字幕化して映像に重ねる方法を紹介しています。
同じく落合さんに触発された同志社大学研究員でピクシーダストテクノロジーズのリードエンジニア、長谷芳樹(@nagataniyoshiki)さんが開発した、PCとAndroid端末と無料ツールで音声を字幕化して映像に合成するシステムも注目を集めました。字幕のみならず映像と合成することで、聴覚障害者が字幕と唇の動きを併用して会話できると説明しています。こちらのデモ映像もかなりの精度で字幕がリアルタイムに生成されている様子が分かります。
他にも、iPhoneとMacで同様のシステムを開発する人も現れており、今後さらに多くの選択肢が生まれていきそうです。
協力:鈴木一平(@1heisuzuki)さん、長谷芳樹(@nagataniyoshiki)さん
Copyright © ITmedia, Inc. All Rights Reserved.