メディア
コラム
» 2019年01月26日 11時00分 公開

「ゆっくりしていってね!!!」の声はどうやって生まれたのか 開発者が語る“起業エンジニアの生存戦略” (3/3)

[ねとらぼ]
前のページへ 1|2|3       

ゆっくりボイスが10年以上変わらないワケ

―― AquesTalkが目指しているのは「人間“らしくないけど”聞きやすい声」とは、どういうものなのでしょうか?

 最近、キーワードだと思っているのは「慣れ」ですね。

 活字からヒントを得ようと研究していた時期があるのですが、明朝体とかって手書きではあり得ない形をしていて、人間らしくないですよね。私たちは普段から見ているから特に読みにくいと思いませんが、初めて見た人はきっと違和感を覚えたと思うんです。

―― 「手書きの文字しか見たことない人が、生まれて初めて活字を見た」という状況ですか。

 慣れてしまうと、違和感が消える。それどころか、美しさを感じることさえある。人間はそういう“適応能力”がかなり高いんじゃないか、と思っています。

 自分で合成音声のチューニングをしているときもすぐに耳が慣れちゃって、1週間くらい空けてから自分が作った音声を聞くと「なんじゃこりゃ!」となるんですよ。

 例えば、ゆっくりボイスは、聞いた瞬間に「人間ではない」と分かる機械らしい音声だと思うんですが、ゆっくり系の動画制作者さんのように長時間聞いていると、特に違和感も覚えず、むしろ聞きやすく感じるという可能性は十分あると思います。

―― あの“味がある声”が、気に入っている人は少なくないでしょうね。ずっと同じ声が使われていますから。

 AquesTalk自体は進化しているんですけどね(笑)。ゆっくりボイスといわれているのは「AquesTalk1」。その後、「2」「10」と出していて、音声合成のアルゴリズムから別物です。

―― あれ、動画を見る限り、声が変わっていないような気がしたんですが……。

 動画制作に使われるSofTalkなどのソフトは、最新のAquesTalk10に対応してくれているのですが、制作者さんたちは10年以上前からある「1」を使い続けているんです。「サザエさん」の声優のように、声とキャラクターのイメージが定着していて、新しいものを取り入れる理由が特にないのかもしれません。


キャラ数が1人増えてますが、声は変わらず


イラストは異なるテイストですが、声はやっぱり同じ

―― これもまた人間の“適応能力”なのかなあ……。

 旧エンジンとの継続性を意識して開発していますし、私としては新しいものを使ってもらえるとうれしいんですが……なかなか難しいところですね。

―― 動画視聴者には気付きにくいですが、バージョンアップが続いているAquesTalk。今後も開発を続ける予定ですか?

 聞きやすくて、機械らしい合成音声の追求はライフワークだと思っています。いつできるのかは分かりませんが、それこそ“ゆっくり”やっていけばいいかな、と。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.