查看“网络蜘蛛”的源代码
←
网络蜘蛛
跳转至:
导航
、
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
{{Template:cate|2 网络信息检索|2.3 网络信息资源检索工具|2.3.2 搜索引擎}} 请参阅:[[搜索引擎]] ==概述== *网络蜘蛛(Web Spider,简称Spider),一般也称为网络机器人(Robot)、网络爬行器,是一种按照一定的规则,自动抓取[[万维网]]信息的软件,大量应用于[[搜索引擎]]中。它在网上进行漫游并搜集它所能得到的信息。网络蜘蛛沿着[[WWW]]文件间的超链接在网上“爬行”,记录URL、文件的简明概要、关键字等信息。其“爬行”结果是形成一个很大的网页索引数据库,用户可以通过[[网络浏览器]]利用该数据库的检索引擎对其数据库记录进行检索<ref>张晓辉,邵华.www上的信息发现与搜索引擎技术[J].小型微型计算机系统,1998(6)</ref>。 *并不是所有搜索引擎都用相同的网络蜘蛛(搜索技术),即使利用相同网络蜘蛛的搜索引擎,其搜索策略等方面也会有所不同。而且网络蜘蛛本身也有其不足之处,这些都形成了不同搜索引擎的特点。 == 更新周期<ref>站长百科.网络蜘蛛[EB/OL].[2010.02-20].http://www.zzbaike.com/wiki/%E7%BD%91%E7%BB%9C%E8%9C%98%E8%9B%9B</ref> == *由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。 *搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。 *一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。 ==参考文献== <references/> ==参与本页讨论== {{Template:talk}}
该页面使用的模板:
模板:Cate
(
查看源代码
)(受保护)
模板:Talk
(
查看源代码
)
返回至
网络蜘蛛
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
新闻动态
最近更改
随机页面
编辑社区
编辑帮助
待撰页面
工具
链入页面
相关更改
特殊页面
页面信息