谷歌网页搜索

来自《信息检索》
Wangjt讨论2009年11月29日 (日) 14:58的版本

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

谷歌网页搜索概述

网络地址

图1 谷歌搜索引擎首页
  1. 中文网址:http://g.cn/
  2. 中文网址:http://www.google.cn/
  3. 英文网址:http://www.google.com/

学习谷歌网页搜索的意义

  1. 谷歌网页搜索技术,大部分在百度等搜索引擎中也适用。同样,这些搜索技术是来源于传统数据库检索技术,因而,对这部分的学习,能为后续章节的数据库检索奠定基础,并能获得直观的认识。本部分结合应用实例的讲解也能让我们加深信息检索对解决实际问题、提高搜索效率的认知。
  2. 本节中一些实例中的括号“【】”中的内容直接在谷歌搜索框中输入可查看效果,最快捷的方式是将实例的链接在新窗口中打开,既能看到输入的检索策略,也能直接看到搜索效果。

搜索语法与高级搜索说明

图2 谷歌网页搜索之高级搜索
需要注意的是,所有的搜索语法和搜索符号必须是半角状态(即英文输入模式)。很多搜索语法也可以通过谷歌网页搜索之高级搜索来实现(如图2),在谷歌首页点击“高级”(如图1中标识2)即可进入高级搜索界面。

谷歌一般搜索技术与实例

默认模糊搜索、自动拆分短语

同许多搜索引擎一样,当直接在搜索框中输入搜索词时,谷歌默认进行模糊搜索,并能对长短语或语句进行自动拆分成小的词进行搜索。

短语精确搜索

给关键词加上半角引号实现精确搜索。

通配符

谷歌的通配符是星号“*”,必须在精确搜索符双引号内部使用。用通配符代替关键词或短语中无法确定的字词,实例:

点号匹配任意字符

与通配符星号“*”不一样的是,点号“.”匹配的是字符,不是字、短语等内容。保留的字符有[、(、-等

  • 搜索有关中国的各种大全:【"大全.中国"】,或者不要精确搜索的双引号【大全.中国】百度支持不明显。

布尔逻辑

布尔逻辑是许多检索系统的基本检索技术,在搜索引擎中也一样适用,在谷歌网页搜索中需要注意的是:谷歌和许多搜索引擎一样,多个词见的逻辑关系默认的是逻辑与(空格)。当用逻辑算符的时候,词与逻辑算符之间用需要空格分隔,包括后面讲的各种语法,均要有空格。逻辑非是特例,即减号必须与对应的词连在一起。对于复杂的逻辑关系,可用括号分组。

约束条件

加号“+”用于强制搜索,即必须包含加号后的内容。一般与精确搜索符一起应用,如:

同义词

仅限于英文搜索。一般来说,加~符号会比不加搜索出来的多一些。总体来说效果不是很明显。百度谷歌都支持。

  • ~PC】能搜索出Computer、windows等内容。

数字范围

用两个点号“..”表示一个数字范围。一般应用于日期、货币、尺寸、重量、高度等范围的搜索。用作范围时最好给一定的含义。百度不支持。

  • 奥运会 1980..2004】当我们搜索奥运会的时候,特别是在2008年的时候搜索这个词,出现在搜索结果前几页的几乎全是2008年北京奥运会的相关信息,但是有人想了解进几届在其它地方主办的奥运会的情况。实例中就是搜索1980年到2004年间的奥运会信息。
  • 格力空调 2000..2800 元】搜索价格区间。本例仅仅搜索格力空调的价格在2000元到2800元之间的信息。
  • 格力空调 ..2800 元】2800元一下的。
  • 格力空调 2800.. 元】2800元一上的。

括号分组

逻辑组配时分组,避免逻辑混乱。括号“()”是分组符号。

谷歌高级搜索语法与实例

标题中搜索

通常标题是内容的高度概括,在标题中搜索的结果准确率会更高。谷歌搜索中限定搜索网页或文档标题的语法是:intitle或allintitle。allintitle是intitle的变体,相当于在各个搜索词前加上intitle。二者差别不明显,我们一般直接用intitle。

正文中搜索

仅仅在网页或文档的正文部分搜索。歌搜索中限定搜索网页或文档正文的语法是:intext或allintext。

  • intext:市场研究报告】在正文中搜索“市场研究报告”。 可以与在标题中搜索的结果(搜索结果条数、准确度)进行对比。

网址中搜索

歌搜索中限定搜索网址的语法是:inurl。是In-系指令中最强大的一个,换句话说,这个高级指令能够直接从网站的URL入手挖掘信息,只要略微了解普通网站的URL格式,就可以极具针对性地找到你所需要的资源--甚至隐藏内容。网站构建者通常将某一类信息集中在一个网站的目录中,所以搜索URL中的词本身就是对某一方面内容的一个限定。如果在加上一定的词进行组配,搜索结果将更贴近需求。

  • 搜索图片--【inurl:photo】,搜索所有网络地址中包含“photo”的关键词的页面结果。如果说Google图象搜索侧重于展示图片,inurl搜索则让你在看到图片之前了解到页面大致的文字内容,更方便判断。  利用这一指令,你往往能够找到关键词的组图内容(指令中的photo也可以替代为picture、image等) 。
  • 搜索音乐--【inurl:mp3 毕业生】,在所有网络地址中包含“mp3”的页面中搜索“毕业生”。这个时候返回的“毕业生”肯定是音乐,而不是关于“毕业生”的其它话题。Google中搜索音乐的另一有效方式是MP3可以替换为wma/rm等。
  • 搜索软件--【inurl:download qq】,直接查找QQ软件的下载页面。
  • 搜索电子论文--【inurl:eprint "Information Retrieval"】 搜索有关Information Retrieval的电子论文(通常这类搜索结果能直接下载全文)。
  • 搜索特定网站中的内容【inurl:lib.nit.net.cn 讲座】搜索http://lib.nit.net.cn 网站中有“讲座”的内容,其中网络地址可以有目录,如lib.nit.net.cn/dlib 。

锚链链接搜索

在做网站中有时候用锚点来链接一个页面中的其它部分内容,这样方便浏览和定位。如本页面上方的目录导航,就是通过锚点链接来实现的,也就是说锚点链接的内容通常是网页内容中重要的章节或内容的开始部分,因而对它们的搜索也更能反映网页的主题内容,提高搜索结果的准确度。对于熟悉网页制作的人来说,可以从网页源代码中查看有锚点的HTML代码,如这就是一个锚链的链接:
<a href="#A1">网页第一部分</a>

谷歌网页搜索在锚链链接中语法是:inanchor或allinanchor。搜索范围限制在页面的链接锚点描述文本进行搜索。

文档类型限定

谷歌网页搜索不仅仅能搜索网页,还能搜索各种文档,通过文档类型限定只对文档进行搜索,从而不显示页面的内容。语法是:filetype。这个语法非常有用,我们在网上常常要找一些范文或参考资料的时候常用这个语法。filetype是根据文件后缀搜索特定文件类型,比如支持的文档有:pdf、ppt、doc、xls等;网页文件:htm、asp、php等。

定义搜索

谷歌网页搜索中搜索定义的语法是:define。用于搜索定义或解释。在阅读、学习、研究或撰写论文中,遇到陌生的词或缩写,可以用该语法得到确切的定义或解释。而且可以了解多种语言的定义情况。 【define:文献】得到关于文献的多个定义来源。

网页相关信息搜索

谷歌提供的网页相关信息搜索的语法是:info。通过这个语法能将网页的快照信息、网页链接情况、被链接情况和类似网页的信息供选择浏览。查看样例:【info:lib.nit.net.cn】,info语法是其它几个语法的集合:

  1. cache:搜索谷歌缓存的页面(快照信息)
    • cache:lib.nit.net.cn】当前cache语法不支持谷歌中文,本处给的链接实例是在谷歌英文中搜索的结果。用cache语法的一般情况是:当一个链接无法访问时(或信息被屏蔽时);当信息已经被修改,想看以前的信息时。
  2. related:搜索与特定网页相关的网站
    • related:google.cn】搜索的结果就是更多的搜索引擎。related语法对于发现某一类信息非常有用,比如当你用related搜索一个图书馆网址的时候会出来大量图书馆的网站,如【related:lib.nit.net.cn】;当搜索某期刊网址的时候,能搜索出大量给学科领域的相关期刊,如【related:www.lis.ac.cn
  3. link:搜索所有链接到某个特定URL上的页面
    • link:lib.nit.net.cn】搜索链接到宁波理工学院图书馆的页面。做网站的人往往想知道是哪些网页链接了该网站。也可用于发现某一个页面(新闻、信息等)被什么网页引用(如博客中)或收藏。其实,最好的搜索策略应该是这样:【link:lib.nit.net.cn -site:lib.nit.net.cn】,删除自己链接自己的页面。
  4. site:搜索范围限制在某网站或顶级域名中。
    • 医药 site:edu.cn】搜索我国教育科研网中关于“医药”的信息,比如医药院校或专业的信息等。这样能排除很多医药领域的公司信息。
    • site:lib.nit.net.cn】查看宁波理工学院图书馆的网页被谷歌收录(索引)的数量。比较不同图书馆(网站)在网络上的“大小”。
    • 服务 site:lib.nit.net.cn】搜索宁波理工学院图书馆网站上的所有关于“服务”的页面。URL可以带路径,现在搜索该URL下的所有页面。

混合使用搜索技术

在搜索实践中,往往是多种搜索技术混合使用以满足特定的信息需求,前面的一些实例中就有体现。但是,混合使用的时候也要注意一些问题。

混合搜索实例

  1. 查找产业报告类的全文资料。
    • 当然,可以直接用【产业报告】搜索,如果你掌握了一定的搜索语法知识,你可以这样搜索:【产业报告 filetype:doc】,能搜索到word格式的许多行业的产业报告文档。
    • 而且,你还可以近一步进行限定,搜索仅2005年以来的相关内容:【产业报告 filetype:doc 2005..】。这样搜索到的信息资源并不逊色于专门的数据库。
  2. 查找市场调查报告范文
    • 与上例不同的是还用到了intitle进行限定,从而得到相对精确的搜索结果。【intitle:市场调查报告 filetype:doc】
  3. 搜索非教科网上关于web2.0的会议
    • 【web2.0 会议 –inurl:edu.cn】
  4. 搜索“轻轻的我走了,正如我轻轻的来”的另类说法,既然是另类说法,当然就不能包含“轻轻”。
    • 【"*的我走了,正如我*的来" –轻轻】
  5. 混合使用intitle、site:【intitle:医药 site:edu.cn】
  6. inurl限定:限定搜索特定类别的信息。【"我和你" inurl:mp3】
  7. 搜索特定网站内的文档(一网打尽!)。【filetype:ppt site:lib.nit.net.cn】

不混合使用情况

  1. 不混合使用有抵消的搜索:【药品说明书 sitenet.cn –inurl:net】
  2. 不要重复使用同一语法结构【药品说明书site:cn site:com】但是可以【药品说明书 (site:cn | site:com)】
  3. 在混合使用语法时,不要用别名。如allintitle。
  4. 不要使用过多的语法将结果限制得特别狭窄,采取逐步增加限制的方法,一般不要一步到位。


有趣的谷歌应用

假日图标

随机私人相片

  • 随着使用数码相机拍照的人越来越多,很多人也喜欢将照片发布到网络上,网络上也有很多分享照片的网站。因为数码相机排的照片都会产生默认的文件名,比如我的数码相机默认的文件名是这样的模式:IMG_0295.JPG,很多人会象我一样懒,往网络上传照片或给朋友发送照片的时候是不会重命名照片的文件的。因而,我们可以通过类似的文件名,在谷歌中搜索出很多的照片。网络地址http://www.diddly.com/random/ 就是一个根据不同品牌、型号的数码相机随机产生照片的文件名,然后到谷哥中搜索。
  • 其实,我们可以通过谷歌搜索语法,在中文版本(http://images.google.cn/ )中实现搜索某一型号数码相机的照片,如:【"IMG_*.JPG" filetype:jpg】 说明:分号是短语搜索符(或精确搜索符),其中的星号是通配符filetype:jpg 是限定搜索文件的类型是JPG格式。
  • 还有更多的格式,如(搜索时,多个#号用一个号*代替):
    1. "dcp*.jpg" - Kodak, range of 0 to 4000
    2. "dsc*.jpg" - Nikon, range of 0 to 4000
    3. "dscn*.jpg" - Nikon, range of 0 to 4000
    4. "mvc-*.jpg" - Sony Mavica
    5. "mvc*.jpg" - Sony Mavica

重复输入一个关键词多次

我们可以试一试,重复输入一个关键词若干次,然后比较搜索结果,如:【信息检索 信息检索 信息检索】,你会发现搜索结果数会变少,有时候也不一定会有太多变化。

10个单词的限制

包括关键词和语法结构加在一起,超过这个限制的部分会被忽略。

手气不错

在谷歌首页,有“手气不错”这个按钮(如图1中的标识1),当你输入搜索词后,若按“手气不错”会直接得到谷歌认为最相关的网站,试一试【www】【web】,或者你的名字、感兴趣的字词看看,都链接到什么网站上去了。

计算数字

直接在谷歌网页搜索输入框中输入算式进行计算,除法是“/” ,乘法是“*”。用惯了网络的人,会觉得比掏出手机来按按钮要爽。

最有“性格”的城市?

谷歌实验室中的趋势搜索。

更多谷歌应用

谷歌除了一些搜索服务外,还有一些其它网络服务,点击首页的“更多”(如图1中的标识3),等看到更多的谷歌服务内容。