Webとコントロールされたコンテンツ群の違い

せっかくなので、「The Anatomy of a Large-Scale Hypertextual Web Search Engine」の他の部分も読んでみた。
http://infolab.stanford.edu/~backrub/google.html


3.2 Differences Between the Web and Well Controlled Collections


The web is a vast collection of completely uncontrolled heterogeneous documents. Documents on the web have extreme variation internal to the documents, and also in the external meta information that might be available. For example, documents differ internally in their language (both human and programming), vocabulary (email addresses, links, zip codes, phone numbers, product numbers), type or format (text, HTML, PDF, images, sounds), and may even be machine generated (log files or output from a database). On the other hand, we define external meta information as information that can be inferred about a document, but is not contained within it. Examples of external meta information include things like reputation of the source, update frequency, quality, popularity or usage, and citations. Not only are the possible sources of external meta information varied, but the things that are being measured vary many orders of magnitude as well. For example, compare the usage information from a major homepage, like Yahoo's which currently receives millions of page views every day with an obscure historical article which might receive one view every ten years. Clearly, these two items must be treated very differently by a search engine.


Another big difference between the web and traditional well controlled collections is that there is virtually no control over what people can put on the web. Couple this flexibility to publish anything with the enormous influence of search engines to route traffic and companies which deliberately manipulating search engines for profit become a serious problem. This problem that has not been addressed in traditional closed information retrieval systems. Also, it is interesting to note that metadata efforts have largely failed with web search engines, because any text on the page which is not directly represented to the user is abused to manipulate search engines. There are even numerous companies which specialize in manipulating search engines for profit.

3.2 Webとコントロールされたコンテンツ群との違い


Webは全くコントロールされていない異なる種類のドキュメントの広大なコレクションです。Webのドキュメントはバラエティに富んだ内容を含み、また、外部のメタデータを入手することも可能です。たとえば、それぞれのドキュメントは、言語(人の話す言語、プログラミング言語)や、語彙(e-mailアドレス、リンク、郵便番号、電話番号、製品番号)、フォーマット(テキスト、HTML、PDF、画像、音声)などが異なり、さらに機械生成されたもの(ログファイル、データベースの出力)であることさえあります。また一方で、ドキュメント自身には含まれていないが、ドキュメントから類推することのできるメタデータを定義することもできます。メタデータの例としては、出典の評判、更新間隔、品質、人気、使われ方や引用、などがあります。メータデータのソースは多岐にわたるだけでなく、その重要度のはかり方も多岐にわたっています。たとえば、Yahooのように毎日100万ものページビューを誇る有名なページと、古くて内容のはっきりしない、10年で1度くらいしか見られることのないページとの違いを考えてみてください。明らかに、これら2つの内容は全く違った方法で検索エンジンに扱われるべきです。


もう一つの、Webとコントロールされたコンテンツ群との違いは、webに何を置くかということについて、何のコントロールもされていないということです。どんなものでも発行できるという点と、検索エンジントラフィックの誘導に与える強大な影響力と、故意に検索エンジンを操作して利益を得ようとする企業の存在を組み合わせると、大きな問題が発生することがわかります。この問題は、組織内のクローズドな情報収集システムでは指摘されたことがありませんでした。また、ユーザに直接表示されないテキストを検索エンジンを走査するために不正に利用することで、検索エンジンでのメタデータの利用がことごとく失敗に終わったのは興味深いことです。検索エンジンを走査することに特化して利益を得ている企業はたくさんあるのです。


Webの検索と、企業内のドキュメント検索では考慮すべきことが違うということは、去年のMicrosoftのTech Edのセッションでも述べられていた。
その時には、上記の点以外にも、

  • そもそもリンクが少ないのでページランクのような仕組みが使えない。
  • アクセス権の制御
  • Webとは異なったメタデータ(作成者、更新者、Officeドキュメントのプロパティ)の利用

といった、点が挙げられていた。


あと、この論文は1998年のものだが、このころか悪質なSEO業者がいたというのは意外。