ITmedia ガジェット 過去記事一覧
検索
ニュース

選手生活→性生活、ファン→パン イチロー引退中継、AbemaTVのAI字幕が誤認識を連発 運営「試験的なため精度まだ実現できていない」

イチロー選手の現役引退会見をAmebaTVがライブ配信したところ、リアルタイム字幕AI「AIポン」の誤訳が話題に【追記あり】

PC用表示 関連情報
advertisement

 3月22日未明、米メジャーリーグ・マリナーズのイチロー選手が現役引退会見を行いました。この際ネットテレビAmebaTVのライブ配信では、AI「AIポン(あいぽん)」によって会見の音声がリアルタイムで文字化されたのですが、「選手生活」が「性生活」になってしまうなど誤認識が頻発。SNSでは視聴者から「笑ってしまう」「会見が頭に入らない」など集中力を奪われるといった声が相次ぎ話題となりました。

性生活に終止符……? もちろんそんな発言はなく、AI字幕の誤認識です

 「AIポン」は2018年12月からAmebaTVが試験的に生放送に導入しているリアルタイムAI字幕システム。Googleが提供する音声認識テキスト変換サービス「Cloud Speech-To-Text API」をベースに、LASSICが開発した「LASSIC Speech Recognition」を活用し、生放送中の音声をリアルタイムで認識して字幕として画面に出力します。表示までが約1秒と、テレビ局などの現状のリアルタイム字幕に対し大幅に短縮されているのが特徴です。

 引退会見の中継では記者の質問やイチロー選手の回答が「AIポン」によって字幕化されていったのですが、「テレビ東京のスミと申します」が「鳥のささみと申します」に、「ファンの存在無くしては」が「パンの存在なくしては」に、「おかしなこと言ってます?」が「お菓子もできますか」になるなど、変換ミスが続出。



 さらには「今回まぁ東京ドームでプレーする」が「今大麻東京屯田ところ」に、「プロ野球生活を過ごした人間」が「部落生活を過ごした人間」になるなどの誤認識もありました。「プロ野球でそれなりに苦しんだ人間でないと、やっぱり草野球を楽しむことはできない」という含蓄ある言葉も、「お酒を楽しむことはできない」となんだか退廃的な発言に……。





 中継中、Twitterでは「AI字幕のせいで感動が笑いに変わってまうわ」「AIの翻訳が神すぎて腹痛いw」「字幕変換が雑でイチローの話が入ってこねぇ」などツッコミが相次いで投稿されました。「AI文字起こしすごい!」と純粋に驚く声もありましたが、「AIポンはまだまだですな」「AI字幕のアホさに内容が入ってこない 何のための字幕なのか…」など厳しい声も少なくありません。

 AmebaTVは「AIポン」の導入当初、「今後、最新の機械学習アルゴリズムを利用し、日々の放送を通して固有名詞の習得など更に音声認識精度が向上することを期待しています」と説明していました。字幕がほぼ発言通りにリアルタイムで文字化されるようになったら、聴覚障害者などさまざまな人にとって非常に利便性の高いサービスとなります。現段階ではAIポンの精度はまだまだ「試験的」と言わざるを得ないようですが、今後の改善に期待したいところです。

2019年3月25日9時40分:追記

 今回のAIポンの誤認識について運営元のサイバーエージェント広報担当に、以下の4つの質問を送りました

  • 今回の中継にAIポンを採用・表示したのはなぜか
  • AIポンの精度を上げるようなアップデート予定はあるか
  • AIポンの字幕を表示・非表示選択できるアップデート予定はあるか
  • 今回の会見動画のみ字幕を正しい表記に直す予定はあるか

 これに対し、以下のような回答をもらいました。

 このたび、お問い合わせ頂戴しましたリアルタイムAI字幕システム「AI(あい)ポン」は、Google社が提供する音声認識テキスト変換サービス等のシステムを活用し開発したもので、電車内など音声をオフにした状態でAbemaTVをご覧になっている方にも、少しでも会見等の内容をお届けすることを目的として、2018年12月から試験的に導入しています。

 AIが生放送・生中継での発言をリアルタイムで認識し、約1秒後には自動で字幕に変換し表示するという、これまでのテレビには無かった新しいシステムですが、試験的な取り組みのため、人の手で作業したような精度はまだ実現できていない側面もございます。

 しかしながら、AIを活用した今後のメディアの在り方を切り拓く小さな一歩でもあると認識しており、多くの視聴ユーザーの方に、これまでも温かく見守っていただいておりました。

 Google社の同システムを採用しているため、音声認識の精度も同システムの精度に従い、日々、少しずつ向上していくもので、直ちに人の手で作業したような精度になるわけではありませんが今後も日々のケースをもとに知見を蓄積し、精度の向上を図っていきたいと思っております。

 また、現在は映画の字幕やテレビ番組のテロップと同じように、映像に直接文字を表示する仕様のため、視聴ユーザー側での字幕表示・非表示の選択をしていただくことはできませんが、今後ニーズを見ながら、そのような機能の開発・導入について検討していきたいと思っております。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る