用户:缘
美国记忆
数字图书馆作为知识经济的重要载体,其核心是以各种高新技术为基础的数字资源、数字资源库和数字资源库群。数字图书馆知识服务的发展方向是满足特定群体的深层次需求的,专业化、智能化的服务,是需要按照知识概念内在的体系,将各类信息资源按知识概念和学科门类在相互之间建立起丰富的语义关联,形成各种类型的知识库,从而建立起超越地域限制、具有可扩展性的巨大的“知识网络”,满足不同群体、用户在更广的范围内、更具专业化与个性化的水准上获取知识服务的需求。因此,数字资源建设以及对这些数字资源的分析、组织、关联后形成的数字资源库、知识库等是数字图书馆建设中不容忽视的工作重点所在。
---------------------------------------------------------------------------------------------------------------------------------------------------------
什么是美国记忆
- 历史文化资源作为人类文明的宝贵财富是一个国家民族精髓所在, 因此其保藏及利用问题, 一直是世界各国共同关注的问题。近年来, 数字化技术的日趋成熟为解决历史文化资源的保存和共享问题提供了理想途径, 许多国家也纷纷开展相关项目研究和探索性尝试。
- “美国记忆” (American Memory) 即美国国会图书馆正式启动的国家数字图书馆项目 (NationalDigitalLibraryProgram, 简称NDLP)。该项目旨在让“所有的学校、图书馆、家庭同那些公共阅览室的长期读者一样, 能够在所在地便捷地接触到这些对他们来说崭新而重要的资料, 并按个人要求理解、重新整理和使用这些资料”。
- "美国记忆" (AmericanMemory) 是美国国会图书馆在数字图书馆领域的一次尝试, 也是目前为止这个领域规模最大的一次尝试。它于1990年正式启动, 到2000年 4月数字化了340万件馆藏, 同年12 月可以在万维网上浏览的专集超过90个。为了建设美国记忆, 美国国会图书馆先后组织了两期项目, 一个是"美国记忆试验计划"(1990-1994), 另一个是"美国数字图书馆计划"(1995-2000)。在国会图书馆2001 年预算中提到了第三期项目,"数字未来倡议" (2001-2004), 其最终目标是建立美国在线图书馆 (NationalOn�Line Library)。
- "美国记忆" (AmericanMemory) 是美国国会图书馆在数字图书馆领域的一次尝试, 也是目前为止这个领域规模最大的一次尝试。它于1990年正式启动, 到2000年 4月数字化了340万件馆藏, 同年12 月可以在万维网上浏览的专集超过90个。为了建设美国记忆, 美国国会图书馆先后组织了两期项目, 一个是"美国记忆试验计划"(1990-1994), 另一个是"美国数字图书馆计划"(1995-2000)。在国会图书馆2001 年预算中提到了第三期项目,"数字未来倡议" (2001-2004), 其最终目标是建立美国在线图书馆 (NationalOn�Line Library)。
- “美国记忆” (American Memory) 即美国国会图书馆正式启动的国家数字图书馆项目 (NationalDigitalLibraryProgram, 简称NDLP)。该项目旨在让“所有的学校、图书馆、家庭同那些公共阅览室的长期读者一样, 能够在所在地便捷地接触到这些对他们来说崭新而重要的资料, 并按个人要求理解、重新整理和使用这些资料”。
美国记忆的特点
- 1、内容、标准及使用。到2000年4月美国记忆已经数字化了340万件馆藏,数据主要来自国会图书馆下属的两个部门,一个是地理和地图部,另一个是印刷品和照片部。尽管美国记忆是多家单位合作完成的结果,但其他单位所占的比例很小。到目前为止,美国记忆数字馆藏收集整理的都是历史类材料,与美国国会图书馆整个馆藏相比,还只是非常小的一部分。目前还没有把整个馆藏全部数字化的计划。组成美国记忆数字馆藏的有从文本类资料转换而成的黑白图像,从图片类资料转换而成的灰度和彩色图像、数字化的活动影像和音频资料以及可搜索的文本。数字化过程中使用了扫描仪、数字相机、音频和视频采集设备,并且在重新输入文本并对文本置标的过程中投入了大量的人力。美国记忆尽可能地采用国际标准、美国国家标准或工业标准。例如,文本采用标准通用标记语言标记。
- 2、专人负责、分工明确。每个档案馆(室)除了有负责档案保管、接待、查阅的人员外,还必须明确负责收集反馈信息的人员。并把编研和反馈的信息分别装订成册,以便以后查阅。美国数字图书馆计划办公室有一个较为稳定的核心队伍。除此之外, 每当具体项目进入一个新的阶段或者即将结束的时候, 相关单位 (例如上文提到的P&P) 的代表会进入这个办公室。具体项目一般由办公室的协调人员进行管理; 某些情况下也可能由相关单位自行管理, 此时, 该单位的代表会成为办公室的兼职人员。
- 3、建立编研反馈的督察和跟踪制度,定期检查督导,查漏补缺,不断改进。
美国记忆的搜索引擎
===搜索引擎的类别===
美国记忆使用了智能信息检索中心 ( Center for Intelligent Information Re�trieval, CIIR) 研制的一种索引和检索引擎 InQuery。
===搜索引擎的检索特点===
- 灵活。能对多种格式的文本进行索引, 例如HTML文本。在对某个文件内的记录建立索引时, 可以挂接用户自行开发的记录提取程序。 美国记忆! 在其使命中明确阐明要将历史文化数字资源“作为一种公共信息资源提供给公众做教育及终生学习之用”, 并将这一理念贯穿于资源服务全过程, 通过人性化的组织方式、强大的检索功能和丰富的用户选择, 不断增强资源的可获取性和用户友好性。例如, 将超过900万件馆藏依照原始形态、主题、创建者、整理者/ 捐赠者四主题组织成100多个馆藏库, 各主题资源下均以一组解释性说明予以标注,设计也在忠实反映类目内容的前提下尽可能通俗易懂, 同时采用多重设类, 最大限度方便用户浏览;检索功能支持多种检索策略和跨库检索以及检索结果显示方式选择。
- 强大。提供了15种以上的查询操作, 其中既包括严格的逻辑操作、邻近操作, 还提供了基于概率模型的一些操作, 允许用户按照相关度来排列文献, 并且还允许用户给查询表达式中的检索词赋予不同的权重。
对于文字类专集, 书目记录索引和全文索引是彼此独立的。考虑到美国记忆的核心用户是中小学教师和学生,美国记忆的搜索界面上只有一个输入的窗口, 这样用户无需知道系统的这些细节, 也就无需培训就能使用。实际的工作是 InQurey 在后台完成的。InQurey 会分别检索书目记录索引和全文索引, 如果查询表达式中有多个检索词, 这种搜索动作会进行很多次, 并将几次搜索的结果合并到一起。最后返回的命中文献可能是:
(1.查询表达式中检索词构成的短语与文献中的一个短语完全一致, 该文献将排在命中文献列表的前面。
(2.查询表达式中所有检索词均在文献中出现, 此时这几个检索词在文献中距离将决定该文献在命中列表的位置, 距离较近的排在前面。
(3.如果上面两种情况都不存在, 那些仅包含查询表达式中部分检索词的文献也将作为命中文献返回。
===搜索引擎的系统结构===
美国记忆最初的原型系统基于苹果电脑公司Macintosh的HyperCard。图像在计算机屏幕上显示, 动态图像通过视盘在电视屏幕上显示[21]。这一结构随着国会图书馆把越来越多的专集放到万维网上而被逐步淘汰。但对数字馆藏复杂性的认识是个漫长的过程。在对一"件"数字馆藏的多样性有了较为明确认识之后, 美国数字图书馆计划选择了基于计算机科学技术报告 (Computer ScienceTechnicalReport, CS�TR) 结构的美国研究倡议公司 (Corporation forNationalResearch Initiatives, CNRI) 句柄 (Handle) 系统。这一结构又被称为Kahn/Wilensky 框架。CS�TR结构采用面向对象的分析方法, 较好地描述了数字图书馆内的基本元素---数字对象的内在结构和组织方法。句柄系统的核心是具有惟一性的资源标识, 又称句柄。传统图书馆经常把索取号作为惟一性标识, 每件馆藏都拥有一个这样的标识; 句柄的作用与索取号的作用类似, 但更为灵活和复杂, 这是由于同传统馆藏相比, 数字馆藏具有更大的随意性和复杂性。
如何获得帮助
===查找助手===
大量使用查找助手是美国记忆的一个重要的技术特色。从外观上看, 查找助手是一个内容详尽的目录, 展现了专集的组织方法, 如按时间组织、按地点组织或者按主题组织。通过这个目录, 读者能够较为迅速地了解专集的范围和内容。并且查找助手还经常提供一些补充材料, 如生平或者年表等。他们认为这是组织档案类资料的一个好方法, 特别适合研究人员。对查找工具置标遵循档案描述编码 (EncodedArchival Description, EAD) 标准。EAD 有两个层面, 在语义层它包含一套描述型元数据元素, 在语法层它符合SGML的要求。
====SGML置标====
SGML在美国记忆中有两个用途: 一是用于对查找助手置标; 二是用于对全文置标。对查找工具置标遵循EAD标准。对全文标记遵循文本起始化编码倡议 (Text Encod�ing Initiative, TEI) 指南, 或TEI�简化版, 或者是更简单和更灵活的 美国记忆文献类型定义! (DTD)[19]。置标文本存放在扩展名为“. sgm” 的文件里, 它有一个扩展名为“. ent”的附属文件。对于一件母体文献,这两个文件和所有的页面图像文件都放在同一目录下。置标文本与页面图像文件以及其他图表的链接关系, 通过SGML的实体引用 (entity reference) 实现。实体引用由两部分构成: 一部分表明外部实体 (被链接的对象) 是页面图像、插图、表格; 另一部分是外部实体的实体声明名称(相当于一个别名)。附属文件里存放的就是实体声明名称和外部实际文件名的对应关系[19]。例: http: //memory. loc. gov/music/musdi/153/153.sgm! 中有:< CONTROLPGNO ENTITY= “p0001”>“ CONTROLPGNO”表明外部实体是一个页面图像,"p0001" 是它的实体声明名称。同一文件中有:< ILLUSENTITY= "i0004 MAP”="no" > “ILLUS” 表明外部实体是一个插图, “i0004” 就是它的实体声明名称。相同目录 (即 http: //memory. loc. gov/music/musdi/153/) 下存在一个153. ent文件, 其中有:< “ENTITY p0001SYSTEM 0001.tif” NDATA TIF>表示"p0001" 实际上与0001. tif对应。153. ent文件中还有:< "ENTITY i0004SYSTEM 0004.tif" NDATA TIF>表示"i0004" 与0004. tif对应。153. sgm、153. ent、0001. tif 和 0004. tif 都在同一目录下。美国记忆所有文字类专集的文本都经过SGML 标记,但由于目前所有的浏览器都需要使用第三方插件才能显示SGML文本, 提供服务的时候, 这些专集都将 SGML 文本转化成HTML 文本。也有些专集单独保留了 SGML 版本,供那些安装了插件的读者使用。
参考文献:“美国记忆”与我国历史文化资源建设的比较与启示 作者:游毅
“美国记忆”与“共享工程”比较研究 作者:唐琼; 张玫
“美国记忆”对中国数字图书档案建设的借鉴 作者:武绪华
美国记忆:特点、技术方案要点及质量标准(上、下) 作者:真溱