でぶててのWEB録

PPC広告とか!タグマネジメントとか!WEB解析とか!だいたいそこらへん。

【SEO/SEM】検索エンジンと形態素解析について、実験してみる(2)~組み合わせと検証その1~

※このエントリーに直接訪問された方は、前のエントリーをお読みになった上でお読みくださいませ。

  1. 序論


本エントリーは、

  1. 日本語(漢字、カタカナ、ひらがな)と英数字(英語、ローマ数字)との組み合わせに基づいた形態素解析による単語節の分解
  2. 分解による太文字処理(Bold表記)

について、検証しています。
ページが重くなるため、順次アップしていきます。



2-1.序論

 日本語は世界でも難解な言語のひとつであり、文字表記も表意文字である「漢字」*1と表音文字である「カタカナ・ひらがな」に分類できる。さらに、表音文字である英語と数字(ローマ数字)がある。
 検索エンジンは、

  1. 検索クエリ(文字列)を処理(形態素解析)し、
  2. その文字列と繋がりの強い文字列や意味などの要素を判定し、
  3. Bold表記へと返す。

この際、自然検索(オーガニック)と有料検索(Adwords, リスティング広告)とでは判定要素が異なるため、オーガニックではBold表記されても広告ではBold表記されない場合(その逆も然り)が存在する。
※Bold表記による自然検索/有料検索への影響については、本エントリーでは記載しない。


2-2.検証の目的

文字の組み合わせパターンの違いによる単語説の分解(形態素解析)パターンを確認・検証する。
なお、

  • 形態素解析結果がBold表記として返されることを前提とし、
  • 2単語節以上に分解されるであろう文字列
  • 固有名詞、一般名詞とにでき得る限り分け
  • 略語についても検証をする

考えられるパターンは以下の通り(15パターン)。

  1. 漢字
  2. 漢字 × ひらがな
  3. 漢字 × カタカナ
  4. 漢字 × 英語
  5. 漢字 × 数字
  6. ひらがな
  7. ひらなが × カタカナ
  8. ひらがな × 英語
  9. ひらがな × 数字
  10. カタカナ
  11. カタカナ × 英語
  12. カタカナ × 数字
  13. 英語
  14. 英語 × 数字
  15. 数字

2-3.検証の方法

任意の文字列を検索バーに打ち込み、GoogleとYahoo!との掲載結果を2つのブラウザを使って確認する。
※検索エンジン、ブラウザともに表示形式が一緒の場合は割愛。


3.検証

以下、検証結果。

3-1.漢字のみ

(例)美容整形外科
有料検索 美容整形外科 = 美容 + 整形 + 外科
自然検索 美容整形外科 = 美容 + 整形 + 外科

検索結果を見ると、
有料検索/オーガニックともに"美容""整形""外科"が独立してBold表記されているため3単語に分解されている。

f:id:debutete:20131113002335p:plain
※オーガニック

f:id:debutete:20131113002446p:plain
※広告

しかし、Wikipediaのタイトル「美容外科学」はbold表記されていない。
にも関わらず、同じ単語で表示URLはbold表記がされている。
f:id:debutete:20131113002532p:plain

仮説)美容 + 整形 + 外科 の3単語に分解されているが、タイトルとURL/本文では分解方法が違うのではないか?

よって、
「美容外科」「美容整形」「美容外科学」で検証を行う。


(例)美容外科・美容整形
有料検索 美容外科 = 美容 + 外科
自然検索 美容外科 = 美容外科
有料検索 美容外科 = 美容 + 整形
自然検索 美容外科 = 美容整形

オーガニックでは、"美容外科"と"美容整形"とで"美容"がbold表記されてないことから一つの文字列として認識されていることがわかる。しかし、Wikipedeaのタイトルは"美容"のみbold表示されていることから、適用条件が異なる可能性が高い。
f:id:debutete:20131113002718p:plain
※オーガニック表示

f:id:debutete:20131113002650p:plain
※Wikipediaの表示


(例)美容外科学
有料検索 美容外科学 = 美容 + 外科 +学
自然検索 美容外科学 = 美容 + 外科 +学

"美容外科学"ではどうだろうか?
Wikipediaのタイトルはもちろんbold表記がされている。
しかし、Wikipediaの本文/表示URLでは"美容外科"がbold表記され、その下にある検索結果でも"外科"がbold表記された上にタイトルもbold表記されていることから、「Wikipediaのタイトルのみが適用条件が異なる」と高い可能性で言える。

f:id:debutete:20131113003449p:plain
※オーガニック

また、Yahoo!はGoogleのシステムを採用しているため基本的に全く一緒。
しかし、独自コンテンツは違う模様。

f:id:debutete:20131113003058p:plain
※Yahoo!知恵袋の表示


(結論の仮説)

漢字のみの場合の仮説。

  1. 有料検索と無料検索(オーガニック)とでは、形態素解析方法が異なる。
  2. Wikipediaのタイトルのみはオーガニックの中でも違う条件でbold表記がなされる。
  3. Yahoo!の独自コンテンツは完全一致のみbold表記になる


(補足)

でぶてては、美容整形や美容外科には興味はないが脂肪吸引には興味がある。しかし、疑似科学感が強く一切する気はない。

ちなみに・・・↑の文章を有料検索での形態素解析をすると・・・

でぶてて は 美容 整形 や 美容 外科 に は 興味 は ない が 脂肪 吸引 に は 興味 が ある しかし 疑似 科学 感 が 強く 一切 する 気 は ない

となります。


いかがでしょうか?

この調子で残りの項目も検証し、現段階で結論付けるところまでエントリーを記載していきます。



*1:象形・指事・会意・形成とがある。詳しくは、http://1st.geocities.jp/ica7ea/kanji/moji_2.htmlを参考のこと

copy right 2012 でぶてて