でぶててのWEB録

PPC広告とか!タグマネジメントとか!WEB解析とか!だいたいそこらへん。

【SEO/SEM】検索エンジンと形態素解析について、実験してみる(5)~検証その4~

※先のエントリー

  1. 序論
  2. 組み合わせと検証その1(漢字のみ)
  3. 検証その2(漢字×ひらがな、漢字×カタカナ)
  4. 検証その3(漢字×英語、漢字×数字)

今回は、ひらがな、ひらがな×カタカナ(略称を含む)、ひらがな×英語、ひらがな×数字の検証をします。


3.検証

3-6.ひらがな

今回の検索クエリは、「そば」。蕎麦好きだから、そば。

有料検索 そば
自然検索 そば

f:id:debutete:20131208230523p:plain

今回はYahoo!側の検索結果画面であるが、今までの検証の仮説通り文字種(ひらがな、カタカナ、漢字)が違っていてもbold表示されている。サジェストキーワード(虫眼鏡キーワード)も同様である。しかし、Googleとの表示での違いとしてYahoo!MAPが表示された際にエリアIPに関係している箇所がboldされている。


3-7.ひらがな×カタカナ

ワインがおいしい季節になったので、検索クエリは「おいしいワイン」

有料検索 おいしい + ワイン
自然検索 おいしい + ワイン

f:id:debutete:20131208230709p:plain
「ひらがな×カタカナ」の掛け合わせでも仮説通り、同じ読みの字としてboldされている。


次に、「ももいろクローバー」で検証する。
口語では「ももクロ」と略することが多いため、略称でもboldされるのかを検証したい。

有料検索 ももいろ + クローバー
自然検索 ももいろ + クローバー

f:id:debutete:20131208230817p:plain

ももいろクローバーzの略称である「ももクロ」もboldされている。
amazon広告が右枠に表示されているが、広告では「もも クロ」と分割されていることがわかる。


3-8.ひらがな×英語

検索クエリは「なんj」

有料検索 --
自然検索 なん + j

f:id:debutete:20131208233626p:plain

有料検索枠が表示されなかったので、有料検索は割愛。
自然検索では上記画像のように、「なんJ PRIDE」と「なんJPRIDE」とでは、bold表示が異なる。このことより「JPRIDE」と連続した文字列になった場合、一単語と認識されているといえる。より詳細については、英語の検索クエリの項で説明する。


3-9.ひらがな×数字

検索クエリは、「1か月」

有料検索 1 + か +月
自然検索 1 + か +月

f:id:debutete:20131209011930p:plain

過去の検証と同様、Wikipediaは傾向が違うが自然検索および有料検索は「数字とひらがな」が分離されている。経験上、有料検索の場合は数字とひらがな・カタカナ・漢字は分離されているため、検証結果と同じ結果となる。


ここまでの結論の仮説

  1. 検索エンジンに非依存のパターン
    1. 有料検索(Yahoo!プロモーション/Googleアドワーズ)と自然検索(オーガニック)では、形態素解析が異なる。
      1. 形態素解析の判定は、スペースも考慮される場合がある(スペースあり/なしで別単語と認識される場合に限る)
        1. 数字とひらがな・カタカナ・漢字での組み合わせの場合、数字とそれ以外に分離する。
        2. 英語で2語以上の組み合わせの場合、スペースのあり/なしで別単語と認識される。
      2. 有料検索(Yahoo!プロモーション/Googleアドワーズ)では、同一読みの場合に限り漢字・ひらがな・カタカナのどの表記でもBold表記される可能性がある。
      3. 自然検索(オーガニック)において、タイトル・表示URL・本文(コンテンツテキスト)それぞれでBold表記される条件が異なる。特に、Wikipediaはまた別の条件が適用される。
    2. 略称も一定条件を満たせば、略称元の検索クエリに対してBold表記される。
    3. サイトリンクはBold表記の対象外。
  2. Yahoo!独自のパターン
    1. Yahoo!独自のコンテンツは検索クエリと完全一致する場合にのみ、Bold表記される。
    2. Yahoo!マップが表示される場合、検索行為を行ったブラウザの準じたIPがBold表記される。
  3. Google独自のパターン
    1. Google検索において、Googleプレイスが自然検索(オーガニック)に表示される場合、特定条件を満たした場合にのみ自然検索(オーガニック)1位に関連するコンテンツテキストがBold表示される。


copy right 2012 でぶてて