ビデオ会議やネット発表会が増える中、話した内容をリアルタイムで字幕化してWebカメラ映像に合成するシステムを開発する人が現れて注目を集めています。
開発したのは筑波大学大学院修士課程の鈴木一平(@1heisuzuki)さん。カメラとマイクをオンにしてGoogle ChromeからWebサイトにアクセスすると、話したことをリアルタイムで音声認識してWebカメラの映像に字幕として表示します。


ブラウザの画面をキャプチャーしたり共有したりしてビデオ会議ツールに表示すると、字幕付きで会議に参加することが可能。音声認識結果のログをダウンロードすることもできます。ソースコードはGitHubで公開されています。
鈴木さんが公開したデモ映像では、話している内容がかなりの速さと精度で字幕に変換されています。編集部でも試したところ、話したことがサクサクと文字に起こされて驚きました。
鈴木さんはこのサイトの「元ネタ」として、落合陽一さんが投稿した動画を挙げています。落合さんは動画で、ビデオ会議で耳が聞こえにくい人とスムーズにコミュニケーションできるよう、Googleのアプリを使って音声を字幕化して映像に重ねる方法を紹介しています。
元ネタの動画
同じく落合さんに触発された同志社大学研究員でピクシーダストテクノロジーズのリードエンジニア、長谷芳樹(@nagataniyoshiki)さんが開発した、PCとAndroid端末と無料ツールで音声を字幕化して映像に合成するシステムも注目を集めました。字幕のみならず映像と合成することで、聴覚障害者が字幕と唇の動きを併用して会話できると説明しています。こちらのデモ映像もかなりの精度で字幕がリアルタイムに生成されている様子が分かります。
長谷さんは鈴木さんのサイトに提案も行っています

他にも、iPhoneとMacで同様のシステムを開発する人も現れており、今後さらに多くの選択肢が生まれていきそうです。
協力:鈴木一平(@1heisuzuki)さん、長谷芳樹(@nagataniyoshiki)さん
コメントランキング
「FNS歌謡祭 第1夜」であなたが良かったと思うアーティストは?【人気投票実施中】 | 音楽 ねとらぼリサーチ
今川焼? 大判焼き? あの“円形の厚焼き和菓子”の名前は? 47都道府県別・呼び方の勢力図を公開!(投票結果) | グルメ ねとらぼ
「ベストヒット歌謡祭2025」で良かったアーティストは?【人気投票実施中】(投票結果) | 音楽 ねとらぼリサーチ
2025年「NHK紅白歌合戦」の「白組」出場歌手で楽しみなのは?【人気投票実施中】(投票結果) | 音楽 ねとらぼリサーチ
岩手県の「おいしいお土産」10選! 一番うまいと思うのは?【人気投票実施中】(2/2) | 岩手県 ねとらぼリサーチ:2ページ目