“网络信息检索效果评价”的版本间的差异

2010年2月11日 (四) 01:09的最新版本

信息素养> >2 网络信息检索 >2.2 网络信息检索概述 >2.2.2 网络信息检索 > 网络信息检索效果评价

目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要^[1]。

查全率、查准率

查全率(Recall ratio，简写为R)，是系统在进行某一检索时，检出的相关文献量与系统文献库中相关文献总量的比率，即:查全率=检出相关文献量/文献库内相关文献总量。
查准率(Precision:atio，简写为P)，是指所检出的相关文献占所有检出文

献的比率。

查全率和查准率是衡量检索系统检索效果的两个最重要的指标，两者结合使用就能够反映一个检索系统的基本检索效果如何。但是在实践中，两者往往表现出一定的矛盾性，因为查全率强调尽可能全地查出所有相关信息，查准率则强调尽可能准的查出相关信息，这两者在实施过程中一直是一对矛盾。
值得一提的是，在网络环境下，查准率的重要性有所提升，这主要是因为网络资源如此庞大，没有过滤作用的检索系统是起不到其应有的参考作用的。

收录范围

在传统检索效果评价中，数据库收录范围指标被作为衡量查准率的一项辅助指标，用以揭示数据库的涵盖范围。它的计算公式为“给定时间内系统收录的文献总量”比上“同期相关领域中的实际文献量”。网络环境给收录范围带来的最大的挑战就是“同期相关领域实际文献量”的确定的难度更加大了，同时，信息技术的发展也为收录范围提出了更多的挑战。首先，网络所带来的新型资源是多媒体、多语种、跨地域的，因而一个优秀的网络检索系统，其收录范围应随网上信息资源的变化而及时变化，而且应该为利用网络特色资源提供方便手段。其次，一些新型检索工具也为这一指标提出了新的问题。如:元搜索引擎，它是多个单一搜索引擎的集合，没有独立的数据库，主要依靠系统提供统一界面，构成一个一对多的分布式且具独立功能的虚拟逻辑机制。这就使系统内外的范围划定更加模糊。
由于收录范围其实是查全率、查准率等一系统评价标准的基础，所以它的改变，也会相应的引起查全率标准、查准率等标准一系列的变化。

输出形式

输出形式是系统所检出的信息的表达形式，通常有文献号、题录、文摘或全文等。输出的信息越多且便于浏览，用户就越容易做出相关性判断。由于人机交互过程中，无可避免地会出现理解上的偏差，而输出形式可以提供更详细一点的检索反馈，使用户可以在系统所提供的检索结果的基础上进行更进一步的筛选，或及时调整自己的检索策略。所以，输出形式应该成为网络信息检索性能评价的一个重要指标，检索工具应该能够灵活地定义检索结果输出格式。而且，利用网络环境的特点，检索工具如果能够提供诸如标题、URL、文件格式、语种、文摘等多种选择，以超级链接方式或可视化的形式提供用户选择的话，相信会对系统本身的查准率提供一个修正。

参考文献

↑ 熊回香.网络信息检索及其发展[D].武汉：华中师范大学，2003

参与本页讨论

用户留言：

目前暂无留言

新增留言编辑留言

[1] 熊回香.网络信息检索及其发展[D].武汉：华中师范大学，2003

[1]

@@ 第1行： / 第1行： @@
-::目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要<ref>熊回香.网络信息检索及其发展[D].武汉：华中师范大学，2003</ref>。
+{{Template:cate|2 网络信息检索|2.2 网络信息检索概述|2.2.2 网络信息检索}}
-===查全率、查准率===
+:目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要<ref>熊回香.网络信息检索及其发展[D].武汉：华中师范大学，2003</ref>。
-*查全率(Recall ratio，简写为R)，是系统在进行某一检索时，检出的相关文献量与系统文献库中相关文献总量的比率，即:查全率=检出相关文献量/文献库内相关文献总量。
+==查全率、查准率==
-*查准率(Precision:atio，简写为P)，是指所检出的相关文献占所有检出文
+*[[查全率]](Recall ratio，简写为R)，是系统在进行某一检索时，检出的相关文献量与系统文献库中相关文献总量的比率，即:查全率=检出相关文献量/文献库内相关文献总量。
+*[[查准率]](Precision:atio，简写为P)，是指所检出的相关文献占所有检出文
 献的比率。
 *查全率和查准率是衡量检索系统检索效果的两个最重要的指标，两者结合使用就能够反映一个检索系统的基本检索效果如何。但是在实践中，两者往往表现出一定的矛盾性，因为查全率强调尽可能全地查出所有相关信息，查准率则强调尽可能准的查出相关信息，这两者在实施过程中一直是一对矛盾。
 *值得一提的是，在网络环境下，查准率的重要性有所提升，这主要是因为网络资源如此庞大，没有过滤作用的检索系统是起不到其应有的参考作用的。
-===收录范围===
+==收录范围==
 *在传统检索效果评价中，数据库收录范围指标被作为衡量查准率的一项辅助指标，用以揭示数据库的涵盖范围。它的计算公式为“给定时间内系统收录的文献总量”比上“同期相关领域中的实际文献量”。网络环境给收录范围带来的最大的挑战就是“同期相关领域实际文献量”的确定的难度更加大了，同时，信息技术的发展也为收录范围提出了更多的挑战。首先，网络所带来的新型资源是多媒体、多语种、跨地域的，因而一个优秀的网络检索系统，其收录范围应随网上信息资源的变化而及时变化，而且应该为利用网络特色资源提供方便手段。其次，一些新型检索工具也为这一指标提出了新的问题。如:元搜索引擎，它是多个单一搜索引擎的集合，没有独立的数据库，主要依靠系统提供统一界面，构成一个一对多的分布式且具独立功能的虚拟逻辑机制。这就使系统内外的范围划定更加模糊。
 *由于收录范围其实是查全率、查准率等一系统评价标准的基础，所以它的改变，也会相应的引起查全率标准、查准率等标准一系列的变化。
-===输出形式===
+==输出形式==
 *输出形式是系统所检出的信息的表达形式，通常有文献号、题录、文摘或全文等。输出的信息越多且便于浏览，用户就越容易做出相关性判断。由于人机交互过程中，无可避免地会出现理解上的偏差，而输出形式可以提供更详细一点的检索反馈，使用户可以在系统所提供的检索结果的基础上进行更进一步的筛选，或及时调整自己的检索策略。所以，输出形式应该成为网络信息检索性能评价的一个重要指标，检索工具应该能够灵活地定义检索结果输出格式。而且，利用网络环境的特点，检索工具如果能够提供诸如标题、URL、文件格式、语种、文摘等多种选择，以超级链接方式或可视化的形式提供用户选择的话，相信会对系统本身的查准率提供一个修正。
+==参考文献==
+<references/>
+==参与本页讨论==
+{{Template:talk}}

“网络信息检索效果评价”的版本间的差异

2010年2月11日 (四) 01:09的最新版本

目录

查全率、查准率

收录范围

输出形式

参考文献

参与本页讨论

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具