ITmedia ガジェット 過去記事一覧
検索
ニュース

実は超使えるレシピ検索や裏技 Googleで検索のあれこれを聞いてきた(1/2 ページ)

検索の基本の「き」から、あまり知られていないレシピ検索、「do a barrel roll」のような裏技は誰が作っているかまで、Googleのエンジニアに聞いてきた。

PC用表示 関連情報
advertisement

 ネットを使う人にはなくてはならないGoogle検索。無意識のうちに何でもググっているけれど、実際に裏で回っている検索の仕組みを、頭の中でイメージできる人はどれくらいいるだろうか。Google東京オフィスで行われたイベント「今さら聞けない? 検索の仕組み」でGoogleならではのユニークなトリビアや裏技、意外と使える検索テクニックを教えてもらった。

検索の基本の「き」


Google製品開発本部長の徳生健太郎氏

 検索の基本を一から説明してくれたのは、Google製品開発本部長の徳生健太郎氏。最初に行うのは「クロール」。プログラムが世界中のWebページを集めて記録していく工程のことだ。WordやPDFなど普通のWebページとは異なるものも集めているのが特徴。これらはユーザーが検索している間もしていない間も、四六時中整理され続けている。こうして膨大な情報が蓄積されていく。

 次は「ページの重要度を計る」作業。「PageRank」(ページランク)という技術と関係している。「たくさんの人が集まるページは優良なページ」との推測に基づく、Google検索を特徴付けるアルゴリズムの1つだ。それにしてもこの名前の由来には、何かシャレみたいなものがあるのだろうか。「Googleの創業者はラリー・ページですので、自分の名前も入れちゃおうというのがあったのかもしれません」とお茶目な徳生氏。真相は謎だ。

 各ページの重要度はページの信頼性によって決まる。基本的にはそのページへのリンクが多ければ多いほど信頼性があるとされる。簡単に言うと人と人とのつながりと同じこと。こう説明されるとしっくりくる。それから、どのページにどんなことが書かれているかを整理して「インデックス(索引)」を作る。

Googleは文脈を読む

 ユーザーが入力した検索キーワードはネットに送信され、1台のコンピュータでの処理だけでは足りないため、世界中のコンピュータへ分散されていく。その後の工程ではインデックスのスキャンが行われ、適切な情報が複数選択され、その結果の中でランク付けが行われ、最終的にいつも私たちが目にしている検索結果が表示される。この検索と同時に、常にクロールが行われ続けている。

 検索結果の順位付けに関しては、PageRankのほかにも目安になるものがある。例えば「キーワード」。ページ内で使われているキーワードの数、使われている位置(タイトルや見出しなど重要度の高そうなところ)も1つの参考データとされている。

 文脈からの判断も重要視される。例えば「しょうぶ」と平仮名入力しただけでは、何のことだか分からないが、検索の“文脈”から判断する。「しょうぶ メンコ」と入れると「勝負」だと認識した上で、適切な結果を出す。過去の検索履歴も参考にしている。ネット上のニュースや流行も取り入れ、現代用語が反映された結果が出るようになった。例えばた「ジャバ」というと、昔は「インドネシアの島」のような結果だったが、近年はプログラミング言語「Java」が一般的になり、片仮名で入力してもJava関連の結果が表示されるようになっている。

「結うbン」でも「郵便」と認識

 近年では類義語、表記揺れ、誤字脱字への対応も正確になっている。正確な表現を知らずに、おおよその予想で入力しても、正式名称が出てくるようになった。例えば「全日空」は正しくは「全日本空輸」だが、全日空と入れるだけできちんと結果が表示される。これらはユーザーの検索パターン、検索後のユーザーの行動を加味した上で、例え正式名称ではなくても、多くの人が検索しているのであれば、結果として表示させてしまおうというものだ。ユーザーが結果として求めているものを適切に出していく。

 「もしかして検索」も昔より強化された。例えば「松島奈々子」と入力しても「次の検索結果を表示しています: 松嶋菜々子 元の検索キーワード: 松島奈々子」というように、コンピュータの側で自然と直してくれている。ユーザーの検索履歴、パターンなどデータの蓄積が増えてきたためだ。これらは原則としてコンピュータが自動的に行っているものだが、人的に発見して修正するケースもあるという。「結うbン」なども良い例だ。「郵便」と入力したかったものの、焦ったユーザがよく間違えて入力するそう。ユーザーが間違うことが多いからということで、郵便の結果を表示するように改善された。

       | 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る