でぶててのWEB録

PPC広告とか!タグマネジメントとか!WEB解析とか!だいたいそこらへん。

【SEO/SEM】検索エンジンと形態素解析について、実験してみる(6)~検証その5~

※先のエントリー

  1. 序論
  2. 組み合わせと検証その1(漢字のみ)
  3. 検証その2(漢字×ひらがな、漢字×カタカナ)
  4. 検証その3(漢字×英語、漢字×数字)
  5. 検証その4(ひらがなのみ、ひらがな×カタカナ、ひらがな×英語、ひらがな×数字)

前回から引き続き形態素解析の検証です。
今回は、「カタカナ」「カタカナ×英語」「カタカナ×数字」の検証になります。


3.検証

3-10.カタカナ

検索クエリの例は実は食べられる、「ミドリムシ」
ヨーグルトは食べそこねました。

有料検索 ミドリムシ(?)
自然検索 ミドリムシ(?)

f:id:debutete:20131211003410p:plain

上記画像よりわかるように、オーガニックでは漢字の「緑虫」ひらがなの「みどりむし」がbold表記されていない。しかし、広告ではbold表記されている。ここで作業する際に気付いたことがある。「ミドリムシ」を変換する際に、WindowsのMicrosoft Office IMEでは漢字への変換ができない。これは学名が「ユーグレナ(ミドリムシ)」であり、「緑虫≠ミドリムシ」であるからと考えられるが今回の形態素解析結果はその変換に起因するものではないか?

事実、検索してもらえるとわかるが「ミドリ ムシ」「みどりむし」「みどり むし」「緑虫」は検索結果が異なる。このことより、一つの仮説が生じる。

ひらがな・カタカナを漢字に変換する際にIMEなどの辞書の予測変換に漢字が表示されない言葉は、形態素解析上ひらがな・カタカナも分割される

上記に関しては、類推の域を超えない。


3-11.カタカナ×英語

使おうか検討したことのある、「vプリカ」
もれなくリマケされています。

有料検索 v + プリカ
自然検索 v + プリカ

f:id:debutete:20131211003432p:plain

上記画像より、英語 + カタカナと分離していることがわかる。「visa」の「v」だけがbold表記されている。
しかし、Googleの検索結果ではbold表記されていない。

f:id:debutete:20131211003448p:plain

上記の結果より、Yahoo!とGoogleとでは形態素解析結果に違いが生じる可能性があると言える。


3-12.カタカナ×数字

特に意味もなく、「香水 2013」

有料検索 2014 + アニメ
自然検索 2014 + アニメ

f:id:debutete:20131211003808p:plain
今までの仮説通りである。


ここまでの結論の仮説

  1. 検索エンジンに非依存のパターン
    1. 有料検索(Yahoo!プロモーション/Googleアドワーズ)と自然検索(オーガニック)では、形態素解析が異なる。
      1. 形態素解析の判定は、スペースも考慮される場合がある(スペースあり/なしで別単語と認識される場合に限る)
        1. 数字とひらがな・カタカナ・漢字での組み合わせの場合、数字とそれ以外に分離する。
        2. ローマ字で2語以上の組み合わせの場合、スペースのあり/なしで別単語と認識される。
      2. 有料検索(Yahoo!プロモーション/Googleアドワーズ)では、同一読みの場合に限り漢字・ひらがな・カタカナのどの表記でもBold表記される可能性がある。
      3. 自然検索(オーガニック)において、タイトル・表示URL・本文(コンテンツテキスト)それぞれでBold表記される条件が異なる。特に、Wikipediaはまた別の条件が適用される。
    2. 略称も一定条件を満たせば、略称元の検索クエリに対してBold表記される。
    3. サイトリンクはBold表記の対象外。
  2. Yahoo!独自のパターン
    1. Yahoo!サジェストはBold表記の対象。
    2. Yahoo!独自のコンテンツは検索クエリと完全一致する場合にのみ、Bold表記される。
    3. Yahoo!マップが表示される場合、検索行為を行ったブラウザに準じたIPに関する地名がBold表記される。
    4. ローマ字の形態素解析は、Googleと違うBold表記となる可能性がある。
  3. Google独自のパターン
    1. GoogleサジェストはBold表記の対象外。
    2. Google検索において、Googleプレイスが自然検索(オーガニック)に表示される場合、特定条件を満たした場合にのみ自然検索(オーガニック)1位に関連するコンテンツテキストがBold表示される。


copy right 2012 でぶてて