查看“网络蜘蛛”的源代码

{{Template:cate|2 网络信息检索|2.3 网络信息资源检索工具|2.3.2 搜索引擎}}
请参阅：[[搜索引擎]]
==概述==
*网络蜘蛛（Web Spider，简称Spider），一般也称为网络机器人（Robot）、网络爬行器，是一种按照一定的规则，自动抓取[[万维网]]信息的软件，大量应用于[[搜索引擎]]中。它在网上进行漫游并搜集它所能得到的信息。网络蜘蛛沿着[[WWW]]文件间的超链接在网上“爬行”，记录URL、文件的简明概要、关键字等信息。其“爬行”结果是形成一个很大的网页索引数据库，用户可以通过[[网络浏览器]]利用该数据库的检索引擎对其数据库记录进行检索<ref>张晓辉,邵华.www上的信息发现与搜索引擎技术[J].小型微型计算机系统,1998(6)</ref>。
*并不是所有搜索引擎都用相同的网络蜘蛛（搜索技术），即使利用相同网络蜘蛛的搜索引擎，其搜索策略等方面也会有所不同。而且网络蜘蛛本身也有其不足之处，这些都形成了不同搜索引擎的特点。

== 更新周期<ref>站长百科.网络蜘蛛[EB/OL].[2010.02-20].http://www.zzbaike.com/wiki/%E7%BD%91%E7%BB%9C%E8%9C%98%E8%9B%9B</ref> ==
*由于网站的内容经常在变化，因此网络蜘蛛也需不断的更新其抓取网页的内容，这就需要网络蜘蛛按照一定的周期去扫描网站，查看哪些页面是需要更新的页面，哪些页面是新增页面，哪些页面是已经过期的死链接。 
*搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长，则总会有一部分新生成的网页搜索不到；周期过短，技术实现会有一定难度，而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新，对于一些重要的更新量大的网站，更新的周期短，如有些新闻网站，几个小时就更新一次；相反对于一些不重要的网站，更新的周期就长，可能一两个月才更新一次。 
*一般来说，网络蜘蛛在更新网站内容的时候，不用把网站网页重新抓取一遍，对于大部分的网页，只需要判断网页的属性（主要是日期），把得到的属性和上次抓取的属性相比较，如果一样则不用更新。 



==参考文献==
<references/>
==参与本页讨论==
{{Template:talk}}