杏フィルター

id:doublecrownさんが作成中の杏フィルター。見ての通り、将棋に関するページへのリンクを自動的に生成するプログラムです。まだ試行錯誤段階ですが、いろいろ発展が望めそうですね。

これを見ていて気になったのが、ぱっと見て何のページなのかわからないアンカーが多いことです。あるページの主題が何なのかは、検索エンジンでも様々な方法で自動的に取得する方法が試されていますが、なかなか難しいようですね。文章を自動的に要約するシステムがあればいいのですが、簡単に実装するわけにはいかなさそうです。(http://www.remus.dti.ne.jp/~a-satomi/nikki/2003/06c.html#d27n01 を見ていると、ある程度は可能になっているみたいですが。)根元的な問題として、htmlの書き方が適切でないページが多いことがあります。

googleなどの検索エンジンが、あるページに関連の深い言葉として認識するのは、次のようなものがあります。

1. ページのタイトル

<title></title>の間に書かれる内容です。ここに書かれる言葉は、ページの内容を適切に要約していることが期待されるので、検索エンジンはこの部分を高く評価しています。htmlの仕様上、省略不可とされていることもポイントが高いです。しかし、KANSAI-SHOGI.COMのようにここに何も書いていなかったり、書いてあっても「日記」のように単独では何のことかわからないものもよく見かけます。

2. 見出しの内容

<h1></h1>などの間に書かれる内容です。見出しは、タイトルと同じようにそのページの内容を適切に要約していることが期待されます。ニュースの見出しは要約となっていますね。em要素やstrong要素などで強調された部分も同じように扱うことも考えられますが、見出しを明示している場合に比べると、要約である可能性は低くなります。しかし、例えば新聞社のサイトのうち多くはh1,h2などのタグを使わずに、fontb,spanなどで済ませていました。(例外は、東京新聞、報知新聞、日刊スポーツ)これでは検索エンジンには見出しであることが伝わりません。新聞社のサイトの作りがお粗末なことは知っていましたが、そこまでとは思いませんでした。

3. そのページにリンクしているページのアンカー(もしくはそのtitle属性の内容)

<a href="[]http://www.example.com/[]"></a>の間に書かれる内容です。例えば、「首相官邸」のようにリンクする部分にはリンク先のページの名称を書くことになっていますから、そのページを示す言葉として適切と考えられるわけです。

しかし現実には不適切なアンカーも多く見られます。代表的なのが「<a href="[]http://www.example.com/[]">お申し込みはこちら</a>」のようなリンクで、here症候群と呼ばれています。これについては、「ここ」というリンクについてのリンク集を参照下さい。これに似た悪い例として、「政府は調査結果を<a href="[]http://www.example.com/[]">公表した</a>。」のようなものがあります。リンク先は調査結果なのですが、「公表した」では何のページだかさっぱりわかりません。

ブラウザによってはページ中のリンクを抽出して一覧にする機能を持ったものがあります。これを使ってみると不適切なアンカーがいかに多いかが実感できるでしょう。私も気をつけなければなりません。

4. meta name="description" の内容

例えば、将棋タウンではソースを見ると次のような記述があります。「<META name="description" content="駒の動かし方から、将棋道場の案内、本の紹介、詰将棋等の問題まで様々な将棋に関する情報を発信しています">

このような指定によってページの内容の要約を記述しておくことが推奨されているのですが、検索エンジン用に虚偽の記述を書くことが行われたため、現在は検索エンジンもこの項目を重視しなくなっています。結果としてこれを書いているページは少なくなってしまいました。しかし、使いようによっては簡単に要約を得ることができるので、見直されてもいいのではないかと思います。

検索エンジンはおおよそこの順に重要度を高くつけていると思いますが、フィルタの場合には現在のところ3.が中心になっているようですね。これは新聞などの記事を集めるときには有効ですが、そのほかのページでは不適切なアンカーを拾ってしまうことが多いように見えます。そのあたりをどう工夫するかが問題ですね。