关于图书馆的舆情采集工作的讨论[圕]

关于图书馆的舆情采集工作的讨论

← 圕人堂周讯（总第46期20150327），第16页，克莱蒙整理王启云助理 →

茶男：我插句嘴，问大家个技术问题可以么。我现在做的工作是监控几个网站，我的想法是检索这几个网站上关于某个关键词的内容，然后把网址反馈回来。比方说监控几个政府网站上关于图书馆的新闻，然后汇总起来。
图谋：这应该不单单是技术问题。
茶男：可能我想的太简单了，但是每天的工作量实在太大，都是手工的。
图志粒：如果是手工操作，那确实是工作量很大。
图谋：图林老姜先生搜集图书馆新闻，做了好些年。
生清：@茶男请问你这工作是舆情分析这块吗？
茶男：很对很对。
图志粒：着实佩服老师们的专业态度。
生清：听说这样的分析绝大部分是基于机器分析的手工加工。
图志粒：怎么说？
生清：如果涉及信息的提取分析，主要是通过相关算法，程序进行处理。
茶男：恩。我刚从图书馆被借调到舆情这一块，仔细想想这项工作跟图书馆很像啊。
图谋：元数据收割，统一检索。只是当前好些元数据不让收割。
生清：我也不太懂，现在国内搞这个的很多，但是哪家的技术比较好，我还真不太清楚，目前知道的东西都是在文章里看来的。
茶男：类似于新闻采集。
图志粒：有点明白了。
茶男：类似于RSS，但是政府网站之类的大部分都不支持RSS。
许继*：技术不懂，考虑一个逻辑：用搜索引擎高级搜索呢。
图谋：湖南图书馆搞的《外媒看湖南》，他们估计有较为成熟的经验。
图谋：不支持RSS,也就是因为一些元数据未开放。
茶男：哦。
图谋：因此前边说的，不仅仅是技术问题。当前各馆的书目信息，理论上应该能实现统一检索，事实上种种原因，能检索到的非常有限。道理亦相似。
图志粒：元数据未开放，是否和版权也有一定的关系呢？
生清：估计还不单是版权的问题，这和数据挖掘有关。
茶男：恩。不懂了。
图志粒：酱紫~
生清：最近看大数据、云计算……发现茫然的东西太多。
茶男：是，百度也出百度舆情了。
图谋：当前的问题是，搜索引擎给出的结果，垃圾信息太多了。
王云峰：百度很多年前还做过竞争情报系统呢。。。
生清：很多都是难啃的骨头，虽然想法很简单，实现起来真要懂太多计算机的东西。
图谋：原始信息垃圾多，收割过来的垃圾也多。
许继*：不是限定网址么。
许继*：刚才的问题里。
茶男：是限定几个网址。
许继*：限定网站。
图志粒：还真不知道。。
茶男：限定网址、限定时间段。
图谋：许老师提供的方法，茶男倒是可以实际体验体验。
茶男：恩，试验一下。
图谋：最好能买个VPN，否则访问Google的效果大大折扣。
茶男：有好用的VPN么。政府单位不太好翻墙。
许继*：在你没编好程序前，可以先利用这个方法吧。
图谋：许老师目前用google属于翻墙的？
图志粒：谷歌还是比较好用的。
许继*：是的。百度的功能可以试试。
东北海边：这是把图书馆限定在域名尾为cn的网站检索?
茶男：受教受教。
许继*：我只是试了一下。如果固定的几个站点，我觉得内容会更精确。
图谋：估计会有不小的帮助。
茶男：恩恩。
东北海边：许老师,如果再加上时限的限定,怎么弄。比如最近一个月。
茶男：高级搜索中有时间限制。恩，我的想法就是在这个基础上，多几个关键词，多几个网站。
东北海边：用过,不准。
图谋：多个网站，用什么做分隔符？
许继*：愿闻详情。
茶男：就是同时搜几个网站，好几个关键词。
图谋：不准的原因，其中之一是因为他们没有采用统一的元数据标准。
许继*：似乎不可以加分隔符。
茶男：我在想从新闻圕人堂周讯（总第46期 20150327）- 18 -采集的角度可不可以解决这个问题。
许继*：谷歌应该可以。
图谋：也许有‘机关’待发现。呵呵。
许继*：逗号为或，空格为且。
东北海边：谷歌,我们好象一年都没用了,进不去。
图志粒：被限制了。。要翻墙。
图谋：若干检索技巧，期待有人分享。
山西武*：许老师检索能力比较牛。
茶男：学习了。

以下格式等价，请按需引用或修改后使用：

[1]圕人堂QQ群知识库.关于图书馆的舆情采集工作的讨论[EB/OL].(2015-03-27)[2026-07-10].http://tuan.pub/server/detail.php?id=1169.

[2]茶男，图谋，许继*，等.关于图书馆的舆情采集工作的讨论[DB/OL].圕人堂周讯,2015(46):16.

[3]茶男，图谋，许继*，等.关于图书馆的舆情采集工作的讨论[DB/OL].(2015-03-27)[2026-07-10].http://tuan.pub/server/detail.php?id=1169.

圕人堂 QQ 群知识库

关于图书馆的舆情采集工作的讨论