ビデオ会議やネット発表会が増える中、話した内容をリアルタイムで字幕化してWebカメラ映像に合成するシステムを開発する人が現れて注目を集めています。
開発したのは筑波大学大学院修士課程の鈴木一平(@1heisuzuki)さん。カメラとマイクをオンにしてGoogle ChromeからWebサイトにアクセスすると、話したことをリアルタイムで音声認識してWebカメラの映像に字幕として表示します。


ブラウザの画面をキャプチャーしたり共有したりしてビデオ会議ツールに表示すると、字幕付きで会議に参加することが可能。音声認識結果のログをダウンロードすることもできます。ソースコードはGitHubで公開されています。
鈴木さんが公開したデモ映像では、話している内容がかなりの速さと精度で字幕に変換されています。編集部でも試したところ、話したことがサクサクと文字に起こされて驚きました。
鈴木さんはこのサイトの「元ネタ」として、落合陽一さんが投稿した動画を挙げています。落合さんは動画で、ビデオ会議で耳が聞こえにくい人とスムーズにコミュニケーションできるよう、Googleのアプリを使って音声を字幕化して映像に重ねる方法を紹介しています。
元ネタの動画
同じく落合さんに触発された同志社大学研究員でピクシーダストテクノロジーズのリードエンジニア、長谷芳樹(@nagataniyoshiki)さんが開発した、PCとAndroid端末と無料ツールで音声を字幕化して映像に合成するシステムも注目を集めました。字幕のみならず映像と合成することで、聴覚障害者が字幕と唇の動きを併用して会話できると説明しています。こちらのデモ映像もかなりの精度で字幕がリアルタイムに生成されている様子が分かります。
長谷さんは鈴木さんのサイトに提案も行っています

他にも、iPhoneとMacで同様のシステムを開発する人も現れており、今後さらに多くの選択肢が生まれていきそうです。
協力:鈴木一平(@1heisuzuki)さん、長谷芳樹(@nagataniyoshiki)さん
コメントランキング
【NHK紅白】第76回NHK紅白歌合戦で「よかった」と思うアーティストは?【人気投票実施中】 | 音楽 ねとらぼリサーチ
エヴァ、銀河鉄道999、【推しの子】…… あなたが一番好きな「アニソン」は?【アンケート実施中】 | アニメ ねとらぼ
「回転寿司」でコスパ最強だと思うチェーンは?【アンケート実施中】(投票結果) | グルメ ねとらぼ
「戦国武将」で最強だと思うのは誰?【アンケート実施中】(投票結果) | ライフスタイル ねとらぼ
「最強」だと思う松田聖子のシングル曲は?【2026年版・人気投票実施中】(投票結果) | 音楽 ねとらぼリサーチ