ITmedia ガジェット 過去記事一覧
検索
ニュース

「きのこたけのこ戦争」ついに決着か NTTデータ、バレンタインデーのデータを解析

データさん……?

PC用表示 関連情報
advertisement

 NTTデータは、2015年のバレンタインデーに起きた「きのこたけのこ戦争」をデータ解析。自社で開発している高精度テキスト分析API「なずきSA」を用いて調査した。


画像

 「なずきSA」はインターネット上の日本語テキストデータを解析するツール。単語などからポジネガ分析(ポジティブ・ネガティブ分析)するだけでなく、分野や感性を示す表現の判定を行い、高い精度で評価情報を抽出することができる。例えば、「ヤバイ」という単語はポジネガどちらの感情でも使われ得る言葉だが、前後の文脈などからポジティブに使われているか、ネガティブに使われているかを判定可能となっている。


画像
「なずきSA」の仕組み

画像
例1

画像
例2

 今回調査の対象となったのは、2015年2月1〜17日までのツイート。最初に、バレンタインのソートとして「もらった」「あげた」「プレゼント」といったアクションの単語と、「きのこ」「たけのこ」という名詞でツイートを抽出。その後、「なずきSA」を用いて構文解析を行い、ポジネガ判定する。

 ちなみに、抽出ワードを「きのこの山」「たけのこの里」といった正式名称としないのは、「きのこ厨」「たけのこ派」といった単語も拾うため。また、「きのこ鍋」や「たけのこ料理」といったノイズを除外するため、「鍋」「焼」などのお菓子と関連性のないワードを含むツイートは排除している(リツイート・広告系ツイートなども除外)。さらにここまでで排除しきれなかったノイズは、最終的に目視によるスクリーニングで削除する。

 バレンタインの判定については、「バレンタイン」という直接的な言葉で絞るとデータ数が非常に少なくなってしまうため(例えば、バレンタインの代わりに「友チョコ」や「義理チョコ」のような言葉を使っている人もいるため)、まずは「バレンタイン前後の日程」という時間軸とアクションフィルターのみをかけてデータを抽出。その後、目視判定をしている。

 結果、「きのこの山」ポジ数は453件(64.3%)、ネガ数は251件(35.7%)。「たけのこの里」ポジ数は183件(65.8%)、ネガ数は95件(34.2%)となった。「きのこの山」「たけのこの里」のツイート件数のみ比較してみると、ポジ数「きのこ:たけのこ=453:183」、ネガ数「きのこ:たけのこ=251:95」ときのこの山が圧倒的に多くツイートされていることが分かるが、ポジネガ率を見てみると、ポジ数「きのこ:たけのこ=64.3%:65.8%」、ネガ数「きのこ:たけのこ=35.7%:34.2%」とたけのこの里が上回っている。


   「たけのこの里」勝利!!


 ちなみに、2014年はきのこが優勢。NTTデータは自身の専門技術を用いて、お互い一歩も譲らない戦いが繰り広げられていることを明らかにした。


画像
NTTデータ運営「イマツイ」より(2014年)

太田智美

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る