ITmedia総合  >  キーワード一覧  > 

  • 関連の記事

「音声認識」関連の最新 ニュース・レビュー・解説 記事 まとめ

「音声認識」に関する情報が集まったページです。

NEC、コンタクトセンター向けプラットフォーム発表 生成AIと音声認識技術を活用
NECは、独自の音声認識技術と生成AIを組み合わせたコンタクトセンター向けプラットフォーム「NEC Speech Analysis Platform」の提供を開始した。(2024/9/26)

「生成AI」が運行情報を案内 JR東、音声アシスタントで実証実験
JR東日本は9月3日から、生成AIを搭載した自動音声アシスタントによって、列車の運行情報を案内する実証実験を開始する。生成AIの活用により、高精度での音声認識が可能になったとしている。(2024/9/3)

MCUとNPUを統合:
エッジに高度な音声認識をもたらすスパースAIマイコン
Femtosenseは、同社のNPU(ニューラルプロセッシングユニット)とABOV SemiconductorのMCUを統合した、スパースAI(人工知能) MCU「AI-ADAM-100」を開発した。クラウドに接続されていないデバイスでも、エッジに音声言語インタフェースを実装できるという。(2024/7/24)

現場管理:
建築仕上げ検査用の音声認識エンジンを強化、工場やオフィスビルにも対応
アドバンスト・メディアは、マンションの仕上げ検査などで利用されている建築工程管理プラットフォームサービス「AmiVoiceスーパーインスペクションプラットフォーム」について、病院、介護施設、工場、倉庫、学校、オフィスビルといった幅広い現場でも利用できるよう、音声認識エンジンを強化する。(2024/6/26)

現場管理:
工事写真の撮影/管理を効率化するアプリをアドバンスト・メディアが開発
アドバンスト・メディアは、画像/文字/音声認識を活用して配筋写真撮影の事前準備を省力化するアプリ「AmiVoice 配筋TORUZO」に新機能を追加し、建設工事全般の写真管理を効率化するアプリ「AmiVoice 写真TORUZO」を開発した。(2024/5/17)

建設業界の新3Kを支援するソリューション:
建設業務に特化した音声入力で2024年問題に対応 デジタル化断念した現場にも採用された理由
2024年問題を目前に、建設DXによる業務効率化が急務となっている。だが、デジタルツールを導入してみたものの、使いこなせず成果を得られない中小企業は多い。建設業に特化したAI音声認識サービスを提供するアドバンスト・メディアに、建設現場でのデジタル活用の課題や解決につながる生成AIを活用した新サービスなどを聞いた。(2024/3/29)

音声AI技術の進化 オレオレ詐欺が無くなる未来が来るか
AIの音声認識技術が発達するにつれて、「オレオレ詐欺」などの犯罪に対抗できる日が来るかもしれない。(2023/12/25)

マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応
米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenAI Service」の新機能を発表した。米OpenAIが発表したばかりの「GPT-4 Turbo」や「GPT-3.5 Turbo」の新バージョンに対応する他、画像生成AI「DALL-E 3」や音声認識システム「Whisper 3」もサポートするという。(2023/11/8)

製造ITニュース:
NSW、スマートグラスに生成AI搭載した対話型作業支援ソリューション提供
NSWは、音声認識機能を持つ産業用スマートグラス「RealWear」にMicrosoftの生成AI「Azure OpenAI Service」を搭載した、対話型作業支援ソリューションのトライアル提供を開始した。(2023/10/5)

組み込み採用事例:
コイズミのタワーファンが音声認識AI技術を採用、オフライン音声操作が可能に
菱洋エレクトロの音声認識AI技術が、小泉成器の冷暖房機器「ホット&クール プレミアム」に採用された。ユーザーの仕様にカスタマイズして提供する音声認識モジュールを内蔵し、オフラインでの音声操作と音声応答機能を搭載した。(2023/10/5)

ChatGPT、“目”と“耳”の実装を発表 写真の内容を認識、発話機能でおしゃべりも可能に
米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。(2023/9/25)

AI・データサイエンス超入門:
知識ゼロからのビジネスAI活用。議事録AIを作ってみよう
生成系AIが注目を集める中、従来の画像認識や音声認識のAIも依然として非常に有用です。この記事では、誰でも手軽にできる疑似体験を通じて、会議時の音声を文字起こしをする「議事録AI」の作成を試みます。一緒にAIの世界へ一歩踏み出しましょう!(2023/9/7)

Innovative Tech:
隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術 中国の研究者らが開発
香港大学や清華大学に所属する研究者らは、ミリ波(mmWave)信号から音声を認識するストリーミング自動音声認識(ASR)システムを提案した研究報告を発表した。(2023/9/1)

特選プレミアムコンテンツガイド
音声認識の「3大技術」でオフィスを安心・安全にする方法
従業員にとって安心・安全なオフィスを実現する手段となり得るのが「音声認識」技術だ。どのように役立てることができるのか。音声認識の主要3技術を例に、具体的な生かし方を紹介する。(2023/8/17)

人工知能ニュース:
音声認識対応のIoT向け低フットプリントAIスイート製品を発表
セレンスは、IoTアプリケーション向けに設計した低フットプリントAIスイート製品「Cerence Audio AI Lite」「Cerence Input AI Lite」を発表した。(2023/8/8)

開発プロセスはオープンで、誰でも参加できる:
ggml.ai、GPUなしでチャットAIを動作させるライブラリ「GGML」開発中 Raspberry Pi上で音声認識モデルを実行可能
ggml.aiは、GPUなしでチャットAIを動作させる機械学習用のtensorライブラリ「GGML」を開発していると発表した。(2023/6/26)

iOS版「ChatGPT」アプリはブラウザ版と何が違う? 便利だと感じた機能はコレ
5月末から日本でもiOS向け「ChatGPT」アプリが利用可能になりました。基本的な機能や使い勝手はWebと変わりませんが、オープンソースの音声認識システム「Whisper」による音声入力に対応しているのが大きな違いです。もう1つ。便利な機能があります。(2023/6/19)

対応言語をタスクに応じて従来の10〜40倍に:
Meta、1000以上の言語に対応する音声認識モデルなどを構築、オープンソースで公開
Metaは、音声技術の対応言語を拡大することを目指す「Massively Multilingual Speech」(MMS)プロジェクトの成果として、音声認識モデル、音声合成モデル、言語識別モデルとコードをGitHubで公開した。(2023/5/25)

OpenAI、「ChatGPT」のiOS向けアプリ配信 音声認識システム「Whisper」で言語の聞き分けが可能
米OpenAIは5月18日(現地時間)、対話型AIの「ChatGPT」をiPhone(iOS)向けアプリとしてリリース。まずは米国で提供し、今後数週間以内に他の国への展開も予定する。音声認識システム「Whisper」への対応で言語の聞き分けが可能。(2023/5/19)

音響感知と人工知能を利用し無発声でコマンド認識:
口の形を読み取ってスマートフォンに入力できる眼鏡型デバイス「EchoSpeech」を発表 コーネル大学
コーネル大学の研究所は、低電力のウェアラブル無声音声認識インタフェース「EchoSpeech」を発表した。(2023/4/28)

特選プレミアムコンテンツガイド
「Alexa、荷物は今どこ?」を現実に AIで生まれる「音声認識」の新たな用途
業務プロセスを抜本的に変革したいとき、音声認識の技術をどのように取り入れるかが重要だ。現実的なユースケースを紹介する。(2023/3/30)

小寺信良のIT大作戦:
「新しいBing×音声認識」で感じた“検索新時代” スマートスピーカーはもう古い
Microsoftのブラウザ「Edge」にAIを搭載した「新しいBing」が搭載されたことで、ブラウザをEgdeに乗り換える人もそこそこあったのではないだろうか。筆者もAI搭載のBingを使ってみたい一心で、ChromeからEdgeに乗り換えてみたところだ。(2023/3/24)

専用インスタンスも提供:
OpenAI、「ChatGPT」と「Whisper」のAPIを公開 料金体系、データの利用ポリシーは?
OpenAIは、対話に特化した言語モデル「ChatGPT」と音声認識モデル「Whisper」をAPIで利用できるようにした。(2023/3/6)

新ベンダー/新製品じろじろウオッチ(6):
OpenAIのテクノロジーも活用した、英会話学習アプリが登場 Speakeasy Labsが「Speak」日本版をリリース
Speakeasy Labsは、英語スピーキングに特化した特化型学習アプリ「Speak(スピーク)」の日本語正式版を2023年2月9日にリリースした。独自開発の自動音声認識技術やChatGPTを支えるAI技術、英語学習ノウハウにより対人英会話以上の体験を提供するとしている。(2023/3/6)

ソニーのゆるふわロボット「poiq」との日々:
「poiq」とAlexaの性能が良すぎて少し困ってる話
今回は、poiqの頭脳の部分の話である音声認識とかAIとの対話の話。実はAlexaとの連携機能もあり、poiq経由でAlexaの処理をするのは、poiqオーナーにとってすごく自然なことでもあります。(2023/1/31)

「音声認識だからレジに向かってペイペイって叫べばいいよ」 友人にうそを教えられて実行した結果……
仕込むなら怒られない程度にしましょう。(2023/1/1)

「Amazon Echo Show 15」にFire TV機能を追加するアップデート! Primeビデオ、ネトフリやYouTubeをリモコン経由で快適に楽しめる!
Amazonのスマートディスプレイ「Echo Show 15」にソフトウェア更新が行われ、新たにFire TVとして利用できる機能が追加される。別売の音声認識リモコンを用意すれば、通常のFire TVシリーズと同じように使える(タッチパネル上の仮想リモコンでも操作は可能)。(2022/12/7)

CEATEC 2022:
村田製作所が超小型エッジAIモジュールを開発、消費電力0.2mWで音声認識が可能
村田製作所は、「CEATEC 2022」において、開発中の小型かつ低消費電力のエッジAI(人工知能)モジュールを披露した。同社は既に、グーグルと共同開発した「Coral Accelerator Module」を製品化し量産しているがその小型版の位置付けとなる。(2022/10/27)

車載情報機器:
電波が届かない場所でも高度な音声認識が可能に、トヨタとグーグルが協業拡大
トヨタ自動車とGoogle Cloudは2022年10月11日(米国時間)、次世代インフォテインメントシステムに関するパートナーシップを拡大すると発表した。(2022/10/17)

トヨタとGoogleが連携強化 ネット不要のAI音声認識システムを「カローラ」「LEXUS NX」に提供
米Google Cloudが、トヨタとのパートナーシップを強化。トヨタ北米法人に、インターネット接続が不要なAI音声認識システム「Speech On-Device」を提供する。(2022/10/14)

Fire TV向け「Alexa対応音声認識リモコン」にProモデル登場 バックライトやプログラマブルボタン付きで3980円
Amazonの「Fire TVシリーズ」で使える音声認識リモコンに、上位モデルが登場する。ボタンバックライトやプログラマブルボタンを搭載した他、リモコンを捜索する機能も追加されている。(2022/9/29)

最大8モードを自動で切り替え:
AKM、車載機器に向けたDSP内蔵のCODECを開発
旭化成エレクトロニクス(AKM)は、車載機器の音声認識/処理に向けたDSP内蔵CODEC「AK7749」を開発、サンプル出荷を始めた。(2022/8/18)

「Python+PyTorch」と「JoeyNMT」で学ぶニューラル機械翻訳(終):
「JoeyNMT」で音声データを使った自動音声認識、音声翻訳モデルを作る
精度向上により、近年利用が広まっている「ニューラル機械翻訳」。その仕組みを、自分で動かしながら学んでみましょう。第3回は「JoeyNMT」を音声に対応させて、音声認識や音声翻訳のタスクをエンドツーエンドで解くモデルを構築してみましょう。(2022/8/17)

製造現場向けAI技術:
現場でハンズフリーのデータ入力可能に、騒音下でも高精度の音声認識
アドバンスト・メディアは2022年7月26日、対話型AI音声入力で現場作業中のデータ入力を効率化するMicrosoft Excel向けアドイン「AmiVoice スーパーボイスエントリー for Excel」の提供を開始すると発表した。(2022/8/3)

PCでもスマホでも使える!:
無料で自動文字起こしが可能な「CLOVA Note」を試して分かったこと
現在、β版として無料で提供中の文字起こしアプリ「CLOVA Note」。LINEの音声認識AI「CLOVA Speech」を使った文字起こしの精度はどの程度なのか、実際に試してみた。(2022/8/2)

行政サービスにおけるAI活用【前編】
“デジタル先進国”エストニアの国民向け「仮想アシスタント」開発の裏側
エストニア政府は、行政サービスの仮想アシスタントの運用を開始した。AI技術や音声認識技術を活用した先進的なプロジェクトはどのように開始し、どこまで進んでいるのか。(2022/7/22)

人工知能ニュース:
話者の感情分析もできる、開発者向け音声認識AIエンジンプラットフォーム
アドバンスト・メディアは2022年7月7日、同社の音声認識AI技術をアプリケーションに組み込んで活用できる開発者向けプラットフォーム「AmiVoice Cloud Platform」の説明会を開催した。自社のアプリケーションに音声認識エンジンを利用したサービスや機能を実装できる。(2022/7/8)

現行製造プロセスとも高い親和性:
FeFETによる機械学習、音声認識の精度は95.9%
東京大学は、強誘電体トランジスタ(FeFET)を用いた「リザバーコンピューティング」と呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功した。採用したFeEFTは現行の製造プロセスと親和性が高く、LSIの大規模化も比較的容易とみている。(2022/6/15)

アナリストの“眼”で世界をのぞく:
議事録作りだけではない AI「音声認識」の可能性を考える
画像認識技術に比べて音声認識技術の用途は限定されている。ビジネスの場での活用は、コールセンターでの電話音声の文字起こしや会議の議事録作成にとどまっているのが現状だ。しかし、将来的には売り上げに貢献することが期待されているという。(2022/5/27)

LINE、AI文字起こしサービス「CLOVA Note」を提供 複数話者の聞き分けも可能
LINEは5月24日、AI文字起こしアプリ「CLOVA Note」(iOS/Android、Webブラウザ)ベータ版の提供を始めた。CLOVA NoteはAI音声認識技術「CLOVA Speech」を活用し、収録した音声をテキストに変換できるサービス。ブックマーク機能やキーワード検索も可能だ。(2022/5/24)

「Microsoft Teams」×「Cortana」で会議改革か
TeamsのWeb会議を快適にしたいなら「Cortana」を使うべし?
オフィス出勤再開の動きを受け、Microsoftが「Microsoft Teams」のさらなる利用促進策として打ち出したのが、音声認識技術「Cortana」との連携だ。TeamsとCortanaの組み合わせは、会議をどう変えるのか。(2022/5/9)

本体にも付属へ:
「Fire TVシリーズ」の第3世代リモコンに「ABEMAボタン付き」登場 2980円
Amazonの映像デバイス「Fire TVシリーズ」に対応する音声認識リモコンに、Amazon Musicボタンの代わりに「ABEMA(アベマ)ボタン」が搭載されたものが登場する。ボタンを押すと「ABEMA」アプリが一発起動するもので、Amazon.co.jpや家電量販店ではこのリモコンが付属するFire TVシリーズも順次発売される。(2022/4/15)

Microsoft、約200億ドルでの音声認識のNuance買収完了
Microsoftは音声認識大手Nuance Communicationsの買収を完了した。「ヘルスケア、金融、サービス、小売、通信を含む業界全体の会話型AIおよびアンビエントインテリジェンスのリーダー」である同社と成果ベースのAIを構築していく。(2022/3/7)

産業用ロボット:
教示レスで弁当配膳などにロボット活用、音声認識やARで調整時間を10分の1に
三菱電機は2022年2月28日、高精度な音声認識技術や多関節ロボットの最適化によりティーチング(教示)の負荷を大きく低減した形で動作プログラミングを自動生成する複合技術「ティーチングレスロボットシステム技術」の開発を発表した。ロボット活用のハードルを下げることで、従来ロボットが使われてこなかった食品工場などでの用途拡大を狙う。(2022/3/1)

Innovative Tech:
「ポーズ」と「合言葉」がなければ開かない自動ドア、文教大が開発
文教大学川合研究室の研究チームは、音声と姿勢で認証する自動ドアの開閉システムを開発。自動ドアに設置したカメラで姿勢推定と音声認識を行い、あらかじめ決めておいたポーズと言葉が合致すれば開く。(2021/12/8)

OracleのIaaS向けAIサービス群、日本でも提供へ テキスト分析や音声認識など6種類
日本オラクルが、AIサービス群「Oracle Cloud Infrastructure AI」を日本でも提供する。一部サービスについては既に提供を始めているという。(2021/11/22)

話し声をその場で字幕に 透明ディスプレイで相手も見えるシステムを体験した とても便利
筑波大学のデジタルネイチャー研究室が「DCEXPO 2021」に、話した声をリアルタイムに音声認識し、透明ディスプレイに字幕として表示するシステムを展示した。実際に体験してみたが、話を理解する速度が格段に上がって便利だった。(2021/11/19)

独自プロセッサ×音声認識が“文字起こし”に革命を? 「Pixel 6 Pro」全力レビュー(後編)
Googleのオリジナルスマートフォン「Pixel 6 Pro」は、独自プロセッサ「Google Tensor」を搭載している。これが、機械学習ベースのAI処理に大きな改善をもたらしており、カメラの画像処理だけでなく音声認識処理で大活躍する。普段使いのスマホとしての利便性と合わせてチェックしていこう。(2021/11/1)

音声AI特化の研究組織、サイバーエージェントが新設 接客などで需要増
サイバーエージェントの研究組織「AI Lab」が、音声合成や音声認識といった分野を専門に研究する組織「完全自動対話研究センター」を新設した。接客や問い合わせ対応と言った分野でコミュニケーションを自動化するニーズが高まっていることを受けた施策という。(2021/10/26)

製品動向:
アドバンスト・メディア、建設不動産業界向けスマート内覧会アプリ
アドバンスト・メディアは、AI音声認識とデジタル記録機能を備えるスマート内覧会アプリ「AmiVoice スーパーアテンダーDX」を発売した。(2021/10/25)


サービス終了のお知らせ

この度「質問!ITmedia」は、誠に勝手ながら2020年9月30日(水)をもちまして、サービスを終了することといたしました。長きに渡るご愛顧に御礼申し上げます。これまでご利用いただいてまいりました皆様にはご不便をおかけいたしますが、ご理解のほどお願い申し上げます。≫「質問!ITmedia」サービス終了のお知らせ

にわかに地球規模のトピックとなった新型コロナウイルス。健康被害も心配だが、全国規模での臨時休校、マスクやトイレットペーパーの品薄など市民の日常生活への影響も大きくなっている。これに対し企業からの支援策の発表も相次いでいるが、特に今回は子供向けのコンテンツの無料提供の動きが顕著なようだ。一方産業面では、観光や小売、飲食業等が特に大きな影響を受けている。通常の企業運営においても面会や通勤の場がリスク視され、サーモグラフィやWeb会議ツールの活用、テレワークの実現などテクノロジーによるリスク回避策への注目が高まっている。