「ゆっくりしていってね！！！」の声はどうやって生まれたのか　開発者が語る“起業エンジニアの生存戦略”（2/3 ページ）

» 2019年01月26日 11時00分公開

[ねとらぼ]

前のページへ 1|2|3 次のページへ

　AquesTalkが組み込み向けになったのは、競争相手が少ないニッチな分野を狙ったためです。最近はチラホラ出てきていますが、当時はそういうのが全然なかったんですよ。

　また、大手メーカーに比べると知名度もありませんから、PCでの利用は「規約内なら無償で使っていいよ」ということにしました。宣伝ツールのような位置付けですね。

――　ニッチなところを攻めた結果、副次的に「PC利用で知名度アップ」「組み込みで売る」という役割分担が成立したわけですね。

　AquesTalk自体は音声合成用のライブラリで、ユーザーが直接触れるものではありません。だから、他の開発者さんが同ライブラリを使ってアプリを作り、それをユーザーが使用するという形で広まっていきました。

　私が思うに、影響が大きかったのは「SofTalk」（AquesTalkなどの声質が利用できるフリーのテキスト読み上げソフト）です。

SofTalk画面

　SofTalkは当初、AquesTalkが備えていた発声時のアクセントを調節する機能は搭載されていなくて、テキストを読み上げさせると、平たんな読み方になったんですね。ゆっくりボイスの独特なしゃべり方は、ここから成立したと思っています。

　ですから、「ゆっくりボイス＝AquesTalk」というよりは、「ゆっくりボイス＝SofTalk（エンジンにAquesTalkを利用）」といった方がよいかもしれません。

　「他の人にPCで利用してもらって、AquesTalkを広める」という意図はあったんですが、まさかこんな広まり方をするとは思っていませんでしたね（笑）。私としてはあまりこだわりがなくて「どんなキャラクターを付けようと、好きに使ってください」というスタンスです。

――　ちなみに、ゆっくりボイスの存在に気付いたきっかけは？

　時期は忘れましたが、ニコニコ動画かYouTubeの動画を見て、知りました。東方Projectを知ったのも「ゆっくり」からです。

――　他の人を介して広まっていったせいか、開発者なのに“普通の視聴者”っぽいですね（笑）。

【おまけ解説】ゆっくりAAの誕生経緯について

　AquesTalkの声質を使ったゲーム実況動画は「ゆっくり実況」などと呼ばれるが、この「ゆっくり」は何に由来するのか。丸っこい顔だけを描いた、いわゆる“まんじゅう”姿の「魔理沙」「霊夢」が「ゆっくりしていってね！！！」と叫ぶアスキーアートが元ネタをいわれている。

　では、このAAはどうやって生まれたのか。ネット上の情報をまとめると以下のような感じになる。端的に言えば「ネットユーザー達から自然発生的に生まれた」といったところだろうか。

2ちゃんねる（現5ちゃんねる）ユーザーが原型となる「魔理沙」「霊夢」のAAを投稿
それを他のユーザーがアレンジし、また投稿。次第に変化していく
2008年までに「ゆっくりしていってね！！！」というせりふが定着

　不明瞭な点も多いが、2008年時点でも「謎のAA」と説明しているWebサイトがあり、むしろワケの分からなさが楽しまれていたようだ。真偽を確かめようとすること自体、無粋なのかもしれない。

　比較的はっきりしているのは「2008年がゆっくりブレークの年」だったということ。同年のネット流行語大賞では「ゆっくりしていってね！！！」が銅賞を獲得。ゆっくりボイスを定着させたとされる動画も、この年に公開されている。

「ゆっくりしていってね！！！」で攻撃できる謎仕様。どう見てもネタキャラ

めっちゃ強い

この「ゆっくり」の密度よ

逃げ場がない

なお、「ゆっくりしていってね！！！」で攻撃できるのは共通

人間らしさよりも、機械らしさを目指すAquesTalk

――　合成音声に関わって30年以上とのことですが、独立前に関わっていた製品は？

　メーカー勤めしていた頃に携わったものだと、「VC2」（リコー）というビープ音で声を作るソフトがあります。昔は、テキスト音声合成には専用のハードウェアが使われていたんですが、それをソフトウェアだけでやれるという。まあ、便利というよりは、面白いという感じのものですね。

※ちなみに、山崎氏はプログラミング技術情報誌「月刊C MAGAZINE」1994年3月号にて、「VC2」特集記事の執筆を担当した経験が。その復刻版は電子書籍化されており、Kindleストアで購入可能。

　フリーでリリースされたんですが、あれは大変でした。まだ、世の中にフリーウェアというものが理解されていない時代で、上の人たちは「お金をかけて作った会社の成果物をタダで出すとは何事だ」と。取りあえず「利用したい人はFAX経由で登録してください」ということになったんですが、今度は受信しっぱなしで、FAXがまともに使えない（笑）。

――　いろいろと時代を感じるエピソードですね。最近の業界動向はいかがですか？

　人間らしさが増すとかえって違和感が強まる「不気味の谷現象」というのがありますが、近年、他社のソフトはこの谷底を脱してきたんじゃないかと思っています。

――　自社のAquesTalkは？

　まだ谷に落ちる手前、機械らしさが強くて“不気味さ”とは無縁の段階ですよ（笑）。私はそもそも「人間みたいな合成音声」を作らなくてもいいと思っているんです。

　音声合成の世界では、「人間の声に近づけよう」という流れがずっとあって。製品情報などを見ると、よく「より聞きやすくなりました」「より自然になりました」と書かれているんですが、これは要するに「より人間らしい声になりました」ということなんですね。

　でも、それって「人間の声がこうだから、そうしている」だけで、実はそこまで根拠のある話ではないんじゃないかな。「聞きやすいけど、機械らしい合成音声」というのもありうるんじゃないかな、と。私は20年以上前からこう言っているんですが、こんなことを言う人は他にいないみたいですね。どこのメーカーも人間らしさを目指していて。

――　そのような考え方は、AquesTalkには反映されているんですか？

　音声合成とはある意味、情報の圧縮です。例えば、「○○さんの声を使って音声合成機を作ろう」という場合、その人が話す言葉全てを録音、収録できれば素晴らしいものが作れます。だけど、そんなことは不可能なので、「データ量を現実的なレベルに抑えつつ、任意の言葉をしゃべれるようにする」わけです。

　そこで、音声合成では「どんなデータを削るべきか」というのが課題になります。その点、私の手作業で試行錯誤しながら作るやり方は、「ここは必要か／そうでないか」を自分で判断できるのがメリットですね。

　AquesTalkでは、途中のバージョンからガ行鼻濁音の区別をやめてしまいました。確かに人間は使う音なんですけど、「これがないと、どれだけ違和感があるのか」「明瞭性が落ちて、聞き取りにくくなるのか」と考えたら別に問題ないんじゃないかと。

　これも、あるバージョン以降の話になりますが、日本語の母音を本当に5つだけにしてしまいました。

――　母音ってそもそも「A・I・U・E・O」の5つではないんですか？

　人間が発音するときは、先行する子音などによって、異なる母音になってしまうんですよ。「す（SU）」「く（KU）」の母音はどちらも「U」にまとめられますけど、口の形が違いますから、本当は同じではないんです。

　人間らしい合成音声を作りたいなら、こういうことにも対応して母音を増やすべきです。ただ、うちはそこを目指していないので、本当に5つだけ。データ量が減らせて、軽量化にもつながりますから。

進化を続けるAquesTalkと、10年以上変わらないゆっくりボイス