关于大数据与图书馆的讨论

Nalsi:国内大学图书馆领域数据收集的也还不错吧?
图谋:图书馆界在大数据时代的积极作为之路是,在数据开放方面有实际行动。
Nalsi:不过国内确实相对缺乏开放共享以及合理利用的精神。
图谋:好些工作是关起门来做的。比如馆藏书目Marc信息的共享工作,还做得远远不够。也就是书目数据的共享,步子还是小了点。
Nalsi:法律体系肯定是国内很大的问题嘛,不过说起来,MARC数据现在还值几个钱呢,自己捂起来挺没意思的。
图谋:calis、读秀
了的图书馆还是比较少,而且其中有很大比例滞后严重。
图谋:国内的好些统计数据,包括权威部门提供的,好些是不靠谱的。
广州书童:图书馆的数据也很不靠谱。
图谋:国内的高校图书馆事实数据库,搞了好些年,数据质量、填报数据的图书馆个数等方面,不尽人意。
广州书童:设计到家丑的,都不想报。
图谋:我们对数据的重视程度,太有问题了。涂子沛《大数据:正在到来的数据革命》中说道,‘和美国的数据资源的丰富、开放相比,不少中国留学生对于国内的数据匮乏有切肤之痛。写论文,做研究,如果能选一个自己熟悉的中国话题 ,于国于己,都更有意义。可选的话题不少,但常常一数难求,多数选题都逃不出夭折的命运!有些数据国内确实没有,有待收集;还有些数据水分太大,经不起推敲和检验;再有的,被有关部门贴上了
的标签 ,平民百姓无缘相见。’国内研究人员做研究,‘数据’方面,存在同样的困扰。
图谋:关于政府数据共享,国内估计还比较遥远。
麦子:美国有很多公司是做政府数据生意的,就是把政府公布的数据整理好,再卖出去。
图谋:中国香港公共数据开放网站, 2011年3月建立,只开放地理和交通两大类数据。
广州书童:除了及其个别的图书馆能够做数据挖据,大数据之类的图书馆界就是负责出产论文。
Nalsi:现在不能做不等于将来不能做嘛,也不等于不应该做嘛。在数据方面我们该做的和能做的都有很多,当然国内现实状况就是另外一件事了。——锁起来,其实美国这方面现在也黑,没有做到很好,虽然在蓬勃发展中。
图谋:我是在想,圕人堂如果能在数据开放方面做点比较务实的小事,那亦善莫大焉。
图谋:比如,近年国内图情研究中,可以说是有一些实证研究成果,也可以说有一点数据,适当‘扩大’范围开放一下相关数据,也许算是一种进步。
图谋:真想做的话,切入点似乎还是不少的。不妨先从‘小数据’甚至‘微数据’做起。
图谋:大数据环境下,当前的图书馆(学)方面军相对比较‘淡定’。2014年国家社科基金项目图书馆、情报与文献学学科,年度项目及青年项目总共131项,其中18项题名中含
占13.7%(包含2项重点项目 )。2014年国家社科基金年度项目的图情档项目名含‘大数据’部分有: 1 面向大数据的单元信息组织体系研究 倪晓建 首都图书馆 重点项目 图书馆、情报与文献学;2 大数据环境下的计算型情报分析方法与技术研究 李广建 北京大学 重点项目 图书馆、情报与文献学;3 大数据环境下公安情报学理论体系研究 彭知辉 中国人民公安大学 一般项目 图书馆、情报与文献学;4 大数据时代国际网络舆情监测研究 惠志斌 上海社会科学院 一般项目 图书馆、情报与文献学;5 大数据环境下的科技信息潜在语义挖掘技术优化与比较研究 崔运鹏 中国农业科学院 一般项目 图书馆、情报与文献学;6 大数据背景下实时海量情报数据分析技术研究 王涛 南京陆军指挥学院 一般项目 图书馆、情报与文献学;7 大数据环境下科研数据管理关键技术与服务机制研究 殷沈琴 复旦大学 一般项目 图书馆、情报与文献学;8 大数据环境下药品安全突发事件预警与应急管理研究 魏建香 南京邮电 大学 一般项目 图书馆、情报与文献学;9 基于事实型科技大数据的情报分析方法及集成分析平台研究 曾文 中国科学技术信息研究所 一般项目 图书馆、情报与文献学;10 大数据环境下科技型中小企业知识密集服务模式研究 程刚 安徽财经 大学 一般项目 图书馆、情报与文献学 ;11 基于移动互联大数据环境下社会化商务的消费者行为与偏好研究 刘蔚 湖北工业大学 一般项目 图书馆、情报与文献学;12 大数据时代情报分析的支撑环境研究 蔡超 总装备部 青年项目 图书馆、情报与文献学;13 大数据环境下基于个体识别风险的个人信息利用研究 刘雅琦 中南财经政法大学 青年项目 图书馆、情报与文献学;14 基于实时大数据的潜在新兴技术敏捷预测机制研究 王翠波 中南民族大学 青年项目 图书馆、情报与文献学;15 大数据时代个人信息安全规制研究 张衠 上海社会科学院 青年项目 图书馆、情报与文献学;16 大数据环境下移动互联网用户信息行为研究 叶凤云 安徽大学 青年项 目 图书馆、情报与文献学;17 大数据环境下数字出版知识服务研究 郭亚军 郑州航空工业管理学院 青年项目 图书馆、情报与文献学;18 大数据时代科技成果信息资源的个性化推荐服务研究 李晓慧 中国科 学技术信息研究所 青年项目 图书馆、情报与文献学。
图谋:综观上述项目名称,主要是情报领域学者在行动,图书馆领域似乎可以‘忽略不计’,因为倪馆长的‘面向大数据的单元信息组织体系研究’偏情报更多一些。
图谋:当前图书馆领域信息组织工作,主体还是文献编目这块,其它‘信息组织工作’似乎未成‘气候’
图谋:那18位项目负责人中,似乎倪馆长为图书馆方面军唯一代表?
苏州—罗:也许说明图书馆界、图书馆学应对大数据的能力可能远远逊色于情报学。
Nalsi:不过我也觉得data science是门很有用的学问,对于数据的收集、利用和典藏也是未来信息领域最重要的事情之一。
星期七:个人不太明白图书馆几乎就没有大数据,如何去研究呢?
苏州—罗:就内在动力而言,目前图书馆工作用不到大数据,大数据对图书馆的工作几乎就是浪费、或者说没有必要。
图谋:那可能是缺乏对这方面的了解。不是没有,而是重要方面军。
图谋:据涂子沛《大数据正在到来的数据革命》,1 作为全世界馆藏量最大的图书馆,美国国会图书馆2009年拥有的电子信息总量为235TB。2 介绍TB这一数据存储单位时,阐述其含意和例子如是说,‘美国国会图书馆所有登记的印刷版书本的信息量为15TB,截至2011年年底,其网络备 份的数据量为280TB,这个数据还在以每个月5TB的速度递增。’
图谋:也许前述数据,可以作为图书馆为大数据方面军的例子。
Nalsi:去年Library Journal做了三场主题为‘数据驱动的大学图书馆’的网络研讨会, http://lj.libraryjournal.com/webcasts/data-driven-academic-libraries/,供参考。当然这不是大数据,但是是一般意义下的数据。(我个人不觉得大数据这个概念有什么意义,往往只把它看做是数据科学的一种特殊形式。)
星期七:没有一线的应用,体验不到研究对象,不能参与其中的研究,有点纸上谈兵的感觉。
图谋:情报领域进军大数据,同样存在‘纸上谈兵’嫌疑。
图谋:未来数年,我们可以围观情报领域如何‘纸上谈兵’ 。也许情报领域在国家自然科学基金中还会有一批大数据项目。
麦子:在我看,大家就是牛皮哄哄,但具体什么是大数据,自己也不知道。 我心目中的大数据,和科学,社会科学和人文科学有关,是以研究和教学为驱动,然后图书馆做一些整理和保存的工作。
柴柴:所以图书馆不能只守着自己馆里那点东西,要主动出击,去做科学数据的存储,然后在此基础上做知识的服务啊。
zzz:云计算和大数据能不能用上,真不看图书馆自己,其实图书馆的基本技术力都是外包的。
zzz:说真的,就算给够钱了,也用不起来,我以前和公司的同事搞了一段时间,基本架构说真的都没能完全搞好。而且并未足够优化的云计算的效率很多时候都没有单机好。
图谋:因此还是需要一些真懂或多懂一些人,哪怕是促进产生一些这样的人,也很重要。
麦子:我觉得国内特别喜欢拿美国一些云啊雾啊的,根本没有什么人做的事,看成是世界新潮流,然后活剥生吞,跟风鼓捣。
zzz:客观讲,确实是世界潮流。不过说真的,很多写这些的人,也不觉得这玩意能行,说白了,发文章好发啊。弱弱说一句,以前我也写过云计算什么的论文。
zzz:这和学界刊物的导向也有关系。
麦子:有人问我,‘想咨询你一个问题,你在美国,或许能了解一点,就是美国国会图书馆的NDIIPP长期数字保存项目,其中有个别图书馆采用DuraCloud方式云存储与服务。但我查到的都是2011年左右的数据与说明,不知现在是否有新的报告或案例?我就是想调研一下,美国的大学图书馆或文献资源机构,甚至包括数据库公司,是否有将自己的数字资源,通过云服务公司来存储与服务的’。我说,‘首先,NDIIPP我是没听说过,我问了人,也没有听说过。这里有一个很有意思的事,这个NDIIPP是美国国会图书馆里的一个项目,所谓国家数字基础建设保存,但只是他们在弄,另外要说的是,国会图书馆不是美国国家图书馆,他们只对国会负责,和大学里很少有关联。我们参与的是portico和lockks。’
麦子:图书馆除非是自己数据化的资料,否则资料都是放在数据库公司的,为了省钱起见,很多数据公司的确是租其他云端服务公司的,因为除非自己的数据太大,否则自己储存不经济。
Zzz:图书馆资料放在别人那里的,本来也不是自己做的应用数据,而是论文等一类东西,可以说一开始就不属于自己的,那种和云计算、大数据本来也没有啥关系。
Zzz:而且大数据更多就是关于社交数据和传感器数据的截流,图书馆哪里来的社交数据和传感器数据?
麦子:这就是一个储存服务而已。
麦子:我们学校自己的储存搞了很多年,但基本没有人用。
Zzz:本身是否有做接口?
Nalsi:做了接口,在单个图书馆的层面上恐怕也不会有什么人用吧。
麦子:如果图书馆可以把历代所有作家的每天的生活地点,遇到什么人,和作品,做一个数据库,那就是大数据了。
Nalsi:数字人文学最近开始火起来了。
zzz:这个肯定。就像国内真要用书目数据,用豆瓣之类的api更多。
晨书迷:恩,豆瓣API现在开放的资源更多了。
Nalsi:豆瓣给国内图书馆的服务提供了很多新的可能性,真心觉得很高兴。当然如果豆瓣再多关注一点国际图书馆的动向就更好了。
zzz:豆瓣做这一块的人很少,本来团队以这个网站量级而言也不算多,现在业务逐渐转移,多是在维护而已。
星期七:麦子老师说的上次在上海图书馆学会的数字人文会议上有相关的研究,但只研究了洋务运动这一段时期。
Nalsi:虽然它们做不成国内的OCLC,但是做个国内的LibraryThing也还是很不错的,图书馆太需要这种外部的基础设施项目了。
晨书迷:豆瓣高层估计从没想过这些吧,估计连OCLC是什么都不知道
zzz:恰恰相反,之前有过一些交流,豆瓣的团队做之前就对这一块了解很深入了。
zzz:只不过他们的想法更偏向于大型关联数据的规模而已,现在也在把东西、应用、旅游地当做实体来标引,从某种程度上来讲,是另一个形式的谷歌。但这种方式注定做不到那样的级别。
Nalsi:他们是很适合国内专业的图书馆员求职的地方。
晨书迷:豆瓣貌似没有过招图书馆学、信息资源管理类职位的时候啊,百度、360、搜狐倒是招过类目、标引方面的职位。
zzz:这学科去互联网的,主要还是信息管理与信息系统的。
Nalsi:Google一直都招。
xiaowei:数字人文确实是发展方向,大数据研究也是发展方向,只是图书馆主要是自身没有什么数据。数字人文与大数据研究在有些学科中应用得还不错。
星期七:说句实际的,我们图书馆人,不说挖掘,就是处理分析过PB级别数据的人都不多。
图谋:其实可以立足实际,从有意识的做好图书馆常规业务统计工作做起。做不了大事,就做点实实在在的小事,亦是非常有意义的事。
星期七:业务统计数据一年下来估计也就个位数gb的量,这些现有的关系数据库足矣,用不着大数据处理的架构和技术。
星期七:即使图书馆是大数据的主力军,但大数据不应该是图书馆的主战场。
xiaowei:应该是相关学科的主战场。
星期七:图情领现阶段域应该是有条件的机构做前沿研究,但大部分同仁保持关注,不盲从,做大数据技术研究,学习成本太大了。

以下格式等价,请按需引用或修改后使用:

[1]圕人堂QQ群知识库. 关于大数据与图书馆的讨论[EB/OL].(2014-08-22)[2024-07-07].http://tuan.pub/server/detail.php?id=7.

[2]图谋,Nalsi,zzz,等. 关于大数据与图书馆的讨论[DB/OL].圕人堂周讯,2014(15):3.

[3]图谋,Nalsi,zzz,等. 关于大数据与图书馆的讨论[DB/OL].(2014-08-22)[2024-07-07].http://tuan.pub/server/detail.php?id=7.