关于图书馆的舆情采集工作的讨论

   圕人堂周讯(总第46期20150327),第16页,克莱蒙 整理 王启云 助理   
茶男:我插句嘴,问大家个技术问题可以么。我现在做的工作是监控几个网站,我的想法是检索这几个网站上关于某个关键词的内容,然后把网址反馈回来。比方说监控几个政府网站上关于图书馆的新闻,然后汇总起来。
图谋:这应该不单单是技术问题。
茶男:可能我想的太简单了,但是每天的工作量实在太大,都是手工的。
图志粒:如果是手工操作,那确实是工作量很大。
图谋:图林老姜先生搜集图书馆新闻,做了好些年。
生清:@茶男 请问你这工作是舆情分析这块吗?
茶男:很对很对。
图志粒:着实佩服老师们的专业态度。
生清:听说这样的分析绝大部分是基于机器分析的手工加工。
图志粒:怎么说?
生清:如果涉及信息的提取分析,主要是通过相关算法,程序进行处理。
茶男:恩。我刚从图书馆被借调到舆情这一块,仔细想想这项工作跟图书馆很像啊。
图谋:元数据收割,统一检索。只是当前好些元数据不让收割。
生清:我也不太懂,现在国内搞这个的很多,但是哪家的技术比较好,我还真不太清楚,目前知道的东西都是在文章里看来的。
茶男:类似于新闻采集。
图志粒:有点明白了。
茶男:类似于RSS,但是政府网站之类的大部分都不支持RSS。
许继*:技术不懂,考虑一个逻辑:用搜索引擎高级搜索呢。
图谋:湖南图书馆搞的《外媒看湖南》,他们估计有较为成熟的经验。
图谋:不支持RSS,也就是因为一些元数据未开放。
茶男:哦。
图谋:因此前边说的,不仅仅是技术问题。当前各馆的书目信息,理论上应该能实现统一检索,事实上种种原因,能检索到的非常有限。道理亦相似。
图志粒:元数据未开放,是否和版权也有一定的关系呢?
生清:估计还不单是版权的问题,这和数据挖掘有关。
茶男:恩。不懂了。
图志粒:酱紫~
生清:最近看大数据、云计算……发现茫然的东西太多。
茶男:是,百度也出百度舆情了。
图谋:当前的问题是,搜索引擎给出的结果,垃圾信息太多了。
王云峰:百度很多年前还做过竞争情报系统呢。。。
生清:很多都是难啃的骨头,虽然想法很简单,实现起来真要懂太多计算机的东西。
图谋:原始信息垃圾多,收割过来的垃圾也多。
许继*:不是限定网址么。
许继*:刚才的问题里。
茶男:是限定几个网址。
许继*:限定网站。
图志粒:还真不知道。。
茶男:限定网址、限定时间段。
图谋:许老师提供的方法,茶男倒是可以实际体验体验。
茶男:恩,试验一下。
图谋:最好能买个VPN,否则访问Google的效果大大折扣。
茶男:有好用的VPN么。政府单位不太好翻墙。
许继*:在你没编好程序前,可以先利用这个方法吧。
图谋:许老师目前用google属于翻墙的?
图志粒:谷歌还是比较好用的。
许继*:是的。百度的功能可以试试。
东北海边:这是把图书馆限定在域名尾为cn的网站检索?
茶男:受教受教。
许继*:我只是试了一下。如果固定的几个站点,我觉得内容会更精确。
图谋:估计会有不小的帮助。
茶男:恩恩。
东北海边:许老师,如果再加上时限的限定,怎么弄。比如最近一个月。
茶男:高级搜索中有时间限制。恩,我的想法就是在这个基础上,多几个关键词,多几个网站。
东北海边:用过,不准。
图谋:多个网站,用什么做分隔符?
许继*:愿闻详情。
茶男:就是同时搜几个网站,好几个关键词。
图谋:不准的原因,其中之一是因为他们没有采用统一的元数据标准。
许继*:似乎不可以加分隔符。
茶男:我在想从新闻圕人堂周讯(总第46期 20150327)- 18 -采集的角度可不可以解决这个问题。
许继*:谷歌应该可以。
图谋:也许有‘机关’待发现。呵呵。
许继*:逗号为或,空格为且。
东北海边:谷歌,我们好象一年都没用了,进不去。
图志粒:被限制了。。要翻墙。
图谋:若干检索技巧,期待有人分享。
山西武*:许老师检索能力比较牛。
茶男:学习了。

以下格式等价,请按需引用或修改后使用:

[1]圕人堂QQ群知识库.关于图书馆的舆情采集工作的讨论[EB/OL].(2015-03-27)[2024-11-22].http://tuan.pub/server/detail.php?id=1169.

[2]茶男,图谋,许继*,等.关于图书馆的舆情采集工作的讨论[DB/OL].圕人堂周讯,2015(46):16.

[3]茶男,图谋,许继*,等.关于图书馆的舆情采集工作的讨论[DB/OL].(2015-03-27)[2024-11-22].http://tuan.pub/server/detail.php?id=1169.