でぶててのWEB録

PPC広告とか!タグマネジメントとか!WEB解析とか!だいたいそこらへん。

【SEO/SEM】検索エンジンと形態素解析について、実験してみる(4)~検証その3~

※先のエントリー

  1. 序論
  2. 組み合わせと検証その1(漢字のみ)
  3. 検証その2(漢字×ひらがな、漢字×カタカナ)

今回のエントリーは、「漢字×英語」「漢字×数字」の2パターンについて検証しています。


3.検証

3-4.漢字×英語

例)ntt光, ntt 光

有料検索 ntt光(?), ntt + 光
自然検索 ntt光, ntt + 光

半角スペースあり/なしで検索結果が変わるパターン。
以下、(左/上)半角スペースなし, (右下)半角スペースあり。

f:id:debutete:20131125015741p:plain
※有料検索(半角スペースなし)

f:id:debutete:20131125015753p:plain
※有料検索(半角スペースあり)

f:id:debutete:20131125015851p:plain
※自然検索(半角スペースなし)

f:id:debutete:20131125015907p:plain
※自然検索(半角スペースあり)

上記画像より、
「半角スペースの有無」が形態素解析上、判定されていることがわかる。
また、
その際に、WEBコンテンツも同様に形態素解析が行われ同一の文字列が含まれているかどうかではなく、検索クエリが一単語として処理されているか・その結果としてWEBコンテンツに形態素解析上の同一文字列が含まれているかどうかの判定がされているようである。また形態素解析には二段階以上の適用条件がある可能性がある。

上記画像で見るところの、下記2点が上記考察の根拠である。

  • 半角スペースなしで「光」がboldされず、「ひかり」がboldされている点(二段階)
  • 半角スペースありで、光ファイバーがboldされていない点(形態素解析による単語節の違い)

3-5.漢字×数字

例)500円

有料検索 500 + 円
自然検索 500 + 円

取り立てて今までの検索結果と変わらなかったため、画像割愛。


例)100均

有料検索 100 + 均
自然検索 100 + 均

形態素解析上は特に目立った点はないが、自然検索のGoogleマップ表示のbold表示が異なる。

f:id:debutete:20131125020415p:plain
※自然検索結果

自然検索1位で表示されている「ダイソー」が、Googleマップ(Googleプレイス)でもBold表示されている。試しに、「100円ショップ」と検索したがその場合には、Bold表示はされていない。

f:id:debutete:20131125021632p:plain
※「100円ショップ」検索結果

上記より、Googleプレイスが自然検索に表示される場合、任意の検索クエリの自然検索1位のサイトがBold表示される可能性があると言える。しかし、条件は不明。


ここまでの結論の仮説

  1. 有料検索(Yahoo!プロモーション/Googleアドワーズ)と自然検索(オーガニック)では、形態素解析が異なる。
  2. 有料検索(Yahoo!プロモーション/Googleアドワーズ)では、同一読みの場合に限り漢字・ひらがな・カタカナのどの表記でもBold表記される。
  3. 自然検索(オーガニック)では、同一読みの場合でも検索クエリの文字表記次第でBold表記される条件が異なる。
  4. 形態素解析の判定は、スペースも考慮される場合がある(スペースあり/なしで別単語と認識される場合に限る)
  5. サイトリンクはBold表記の対象外。
  6. 自然検索(オーガニック)において、タイトル・表示URL・本文(コンテンツテキスト)それぞれでBold表記される条件が異なる。特に、Wikipediaはまた別の条件が適用される。
  7. Yahoo!独自のコンテンツは検索クエリと完全一致する場合にのみ、Bold表記される。
  8. Google検索において、Googleプレイスが自然検索(オーガニック)に表示される場合、特定条件を満たした場合にのみ自然検索(オーガニック)1位に関連するコンテンツテキストがBold表示される。

お知らせ

その1.転載について

この検証については不確定要素が多く、検証項目の多さに対してのサンプル数が少ないため実証の域までは達しておりません。また、Google社のシステムによる変動が常に行われているため、経年変化する内容となります。転載についてはその点を必ず留意のうえ、本ブログを情報提供元としてご記載ください。

その2.研究について

今後検証を進めますが研究素材としては有用な内容になるかと思います。本ブログと同様の研究されている方がいらっしゃればご一報いただければ幸いです。
個人的には、下記事項が研究すべき内容と考えております。
1)文字列のBold表記による脳処理速度の比較
2)文字種の違いによる脳処理速度の違い、および年代・性別にみた傾向値
3)広告文の韻と文字数による脳処理速度の違い

その3.検証の中断について

本日より約2週間は私事により検証を中断します。ご了承ください。



copy right 2012 でぶてて