ビデオ会議やネット発表会が増える中、話した内容をリアルタイムで字幕化してWebカメラ映像に合成するシステムを開発する人が現れて注目を集めています。
開発したのは筑波大学大学院修士課程の鈴木一平(@1heisuzuki)さん。カメラとマイクをオンにしてGoogle ChromeからWebサイトにアクセスすると、話したことをリアルタイムで音声認識してWebカメラの映像に字幕として表示します。


ブラウザの画面をキャプチャーしたり共有したりしてビデオ会議ツールに表示すると、字幕付きで会議に参加することが可能。音声認識結果のログをダウンロードすることもできます。ソースコードはGitHubで公開されています。
鈴木さんが公開したデモ映像では、話している内容がかなりの速さと精度で字幕に変換されています。編集部でも試したところ、話したことがサクサクと文字に起こされて驚きました。
鈴木さんはこのサイトの「元ネタ」として、落合陽一さんが投稿した動画を挙げています。落合さんは動画で、ビデオ会議で耳が聞こえにくい人とスムーズにコミュニケーションできるよう、Googleのアプリを使って音声を字幕化して映像に重ねる方法を紹介しています。
元ネタの動画
同じく落合さんに触発された同志社大学研究員でピクシーダストテクノロジーズのリードエンジニア、長谷芳樹(@nagataniyoshiki)さんが開発した、PCとAndroid端末と無料ツールで音声を字幕化して映像に合成するシステムも注目を集めました。字幕のみならず映像と合成することで、聴覚障害者が字幕と唇の動きを併用して会話できると説明しています。こちらのデモ映像もかなりの精度で字幕がリアルタイムに生成されている様子が分かります。
長谷さんは鈴木さんのサイトに提案も行っています

他にも、iPhoneとMacで同様のシステムを開発する人も現れており、今後さらに多くの選択肢が生まれていきそうです。
協力:鈴木一平(@1heisuzuki)さん、長谷芳樹(@nagataniyoshiki)さん
コメントランキング
東京都の「そば」の名店10選! 一番うまいと思う店はどこ?【人気投票実施中】(3/4) | 東京都 ねとらぼリサーチ:3ページ目
「友達にドーミーイン勧めてる」「至れり尽くせりな東横イン」 “サービスが最高”だと思う「ビジネスホテル」は?【アンケート実施中】 | ライフスタイル ねとらぼ
地元民が本当に住みやすいと思う「静岡県の市区町」ランキングTOP26! 第1位は「富士市」【2026年4月10日時点の投票結果】(1/6) | 静岡県 ねとらぼリサーチ
「初見で読めたら天才」 静岡県の“難読市町名”ランキング1位が難しすぎる「読めねぇよ」「知らないと無理」(2/3) | 東京都 ねとらぼリサーチ:2ページ目
「防御最強レベルの小田原城」「熊本城の造りに圧倒された」 “難攻不落”だと思う「日本の城」は?【アンケート実施中】(投票結果) | ライフスタイル ねとらぼ