网络蜘蛛

来自《信息检索》
跳转至: 导航搜索

请参阅:搜索引擎

概述

  • 网络蜘蛛(Web Spider,简称Spider),一般也称为网络机器人(Robot)、网络爬行器,是一种按照一定的规则,自动抓取万维网信息的软件,大量应用于搜索引擎中。它在网上进行漫游并搜集它所能得到的信息。网络蜘蛛沿着WWW文件间的超链接在网上“爬行”,记录URL、文件的简明概要、关键字等信息。其“爬行”结果是形成一个很大的网页索引数据库,用户可以通过网络浏览器利用该数据库的检索引擎对其数据库记录进行检索[1]
  • 并不是所有搜索引擎都用相同的网络蜘蛛(搜索技术),即使利用相同网络蜘蛛的搜索引擎,其搜索策略等方面也会有所不同。而且网络蜘蛛本身也有其不足之处,这些都形成了不同搜索引擎的特点。

更新周期[2]

  • 由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。
  • 搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。
  • 一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。


参考文献

  1. 张晓辉,邵华.www上的信息发现与搜索引擎技术[J].小型微型计算机系统,1998(6)
  2. 站长百科.网络蜘蛛[EB/OL].[2010.02-20].http://www.zzbaike.com/wiki/%E7%BD%91%E7%BB%9C%E8%9C%98%E8%9B%9B

参与本页讨论

用户留言:
目前暂无留言
新增留言 编辑留言