|
隐形网页(Invisible Web)又叫“看不见的网页”,简单说是由某些技术性障碍或搜索引擎的排斥性导致的不能被搜索引擎索引的网页。不要以为隐形网页只占所有网页的一小块,Bright Planet估计隐形网页的数量是可索引网页数量的500倍,我先还真没想到竟然有如此庞大的数量!
虽然我们可能已经习惯了用Google或baidu查找信息,但是如果你想搜索的信息有点复杂或模糊,由于各种各样的原因利用一般的搜索引擎可能并不会给你带来多大帮助时,可以考虑挖掘隐形网页中的信息。在我看来,最有价值的隐性网页往往集中在在线图书馆以及BBS,由于这两者包含的页面若是动态的或含有 “网络爬虫”排斥的代码,我们就不可能通过搜索引擎来找到其涵盖的信息,这样一来就有可能错过自己需要的。
我并不推荐“为了挖掘隐形网页而去挖”,当你实在不易找到满足自己需要的信息时可以予以考虑。下面是关于如何捕获更多信息的一些tips:
·当搜索引擎的搜索结果不能让你满意时,你可以通过网摘站如365key的站内搜索进行查找,这样一些BBS里文章的URL借由这个渠道遍可以浮出水面。缺点:信息定位不够精确,专业性程度低。
·你还可以通过维基百科或专业性较强的维基网站进行站内搜索。缺点:中文维基涵盖的信息量比较少。
·直接登陆在线图书馆查询。缺点:很难找到无须密码或登陆的在线图书馆,即使找到了也是国外的,如The Library-University of California
·通过特殊的搜索引擎或分类目录进行查找,这类定位于网罗隐形网页的搜索引擎以及分类目录确实不少,如Direct Search 、The Invisible Web Directory、Resource Discovery Network 、InfoMine、Virtual Library 等等。但我始终没发现针对中文隐形网页的搜索以及目录服务,真是遗憾。
·还有一种耗时耗力的方法:登陆N多你所知道的BBS,利用其站内查询系统进行所谓的“人肉搜索”。
条条大道通罗马,不要太局限于一般的搜索引擎了。随着互联网的发展,我们逐渐拥有越来越多的选择权,不是么?
Updated:利用blog search engine 也不失为一种不错的捕获信息的渠道。感谢SOGOO!
|