关于图书馆的舆情采集工作的讨论

   圕人堂周讯(总第46期20150327),第16页,克莱蒙 整理 王启云 助理   
茶男:我插句嘴,问大家个技术问题可以么。我现在做的工作是监控几个网站,我的想法是检索这几个网站上关于某个关键词的内容,然后把网址反馈回来。比方说监控几个政府网站上关于图书馆的新闻,然后汇总起来。
图谋:这应该不单单是技术问题。
茶男:可能我想的太简单了,但是每天的工作量实在太大,都是手工的。
图志粒:如果是手工操作,那确实是工作量很大。
图谋:图林老姜先生搜集图书馆新闻,做了好些年。
生清:@茶男 请问你这工作是舆情分析这块吗?
茶男:很对很对。
图志粒:着实佩服老师们的专业态度。
生清:听说这样的分析绝大部分是基于机器分析的手工加工。
图志粒:怎么说?
生清:如果涉及信息的提取分析,主要是通过相关算法,程序进行处理。
茶男:恩。我刚从图书馆被借调到舆情这一块,仔细想想这项工作跟图书馆很像啊。
图谋:元数据收割,统一检索。只是当前好些元数据不让收割。
生清:我也不太懂,现在国内搞这个的很多,但是哪家的技术比较好,我还真不太清楚,目前知道的东西都是在文章里看来的。
茶男:类似于新闻采集。
图志粒:有点明白了。
茶男:类似于RSS,但是政府网站之类的大部分都不支持RSS。
许继*:技术不懂,考虑一个逻辑:用搜索引擎高级搜索呢。
图谋:湖南图书馆搞的《外媒看湖南》,他们估计有较为成熟的经验。
图谋:不支持RSS,也就是因为一些元数据未开放。
茶男:哦。
图谋:因此前边说的,不仅仅是技术问题。当前各馆的书目信息,理论上应该能实现统一检索,事实上种种原因,能检索到的非常有限。道理亦相似。
图志粒:元数据未开放,是否和版权也有一定的关系呢?
生清:估计还不单是版权的问题,这和数据挖掘有关。
茶男:恩。不懂了。
图志粒:酱紫~
生清:最近看大数据、云计算……发现茫然的东西太多。
茶男:是,百度也出百度舆情了。
图谋:当前的问题是,搜索引擎给出的结果,垃圾信息太多了。
王云峰:百度很多年前还做过竞争情报系统呢。。。
生清:很多都是难啃的骨头,虽然想法很简单,实现起来真要懂太多计算机的东西。
图谋:原始信息垃圾多,收割过来的垃圾也多。
许继*:不是限定网址么。
许继*:刚才的问题里。
茶男:是限定几个网址。
许继*:限定网站。
图志粒:还真不知道。。
茶男:限定网址、限定时间段。
图谋:许老师提供的方法,茶男倒是可以实际体验体验。
茶男:恩,试验一下。
图谋:最好能买个VPN,否则访问Google的效果大大折扣。
茶男:有好用的VPN么。政府单位不太好翻墙。
许继*:在你没编好程序前,可以先利用这个方法吧。
图谋:许老师目前用google属于翻墙的?
图志粒:谷歌还是比较好用的。
许继*:是的。百度的功能可以试试。
东北海边:这是把图书馆限定在域名尾为cn的网站检索?
茶男:受教受教。
许继*:我只是试了一下。如果固定的几个站点,我觉得内容会更精确。
图谋:估计会有不小的帮助。
茶男:恩恩。
东北海边:许老师,如果再加上时限的限定,怎么弄。比如最近一个月。
茶男:高级搜索中有时间限制。恩,我的想法就是在这个基础上,多几个关键词,多几个网站。
东北海边:用过,不准。
图谋:多个网站,用什么做分隔符?
许继*:愿闻详情。
茶男:就是同时搜几个网站,好几个关键词。
图谋:不准的原因,其中之一是因为他们没有采用统一的元数据标准
许继*:似乎不可以加分隔符。
茶男:我在想从新闻圕人堂周讯(总第46期 20150327)- 18 -采集的角度可不可以解决这个问题。
许继*:谷歌应该可以。
图谋:也许有‘机关’待发现。呵呵。
许继*:逗号为或,空格为且。
东北海边:谷歌,我们好象一年都没用了,进不去。
图志粒:被限制了。。要翻墙。
图谋:若干检索技巧,期待有人分享。
山西武*:许老师检索能力比较牛。
茶男:学习了。

几个图书馆限定问题检索网站可以老师技术新闻舆情网址这个如果工作分析百度比较东西就是垃圾翻墙但是关于当前应该元数据统一估计关键词想法谷歌采集他们现在类似支持监控搜索引擎好些高级收割政府网手工内容很多然后湖南搜索起来
网站图书馆检索技术关键词元数据政府实现著作权发现搜索引擎程序信息加工计算机圕人堂竞争情报系统反馈域名大数据数据挖掘元数据规范元数据收割原始信息检索技巧书目信息态度能力学习操作功能理论试验经验关系机器事实
  1. 关于国内外图书馆学思想的差异,翻译、阅读外文图书馆学著作之必要性的讨论
  2. 关于公共图书馆文献采访的质量评价体系研究的讨论
  3. 关于公共和高校图书馆的无线网服务和高校内网络覆盖情况的讨论
  4. 关于图书馆员的幸福、工作压力、待遇和考核的讨论
  5. 关于图书馆宣传和读者教育工作关系的讨论
  6. 关于图书馆电子阅览室的使用情况和电脑设备更替的讨论
  7. 关于图书馆员的职业操守和道德品质的讨论
  8. 关于图书馆招收博士的待遇和效果的讨论
  9. 关于图书馆的概念、图书馆员意义和专业性的讨论
  10. 关于图书馆员的待遇和房价比的讨论
  11. 关于美国加州大学图书馆的招聘、待遇、退休等情况的讨论
  12. 关于图书馆男性馆员的待遇和升职问题的讨论
  13. 关于图书馆期刊分类及论文写作的讨论
  14. 关于国外图书馆财政预算、财政来源、馆员收入情况的讨论
  15. 关于“中国近代图书馆是自动、社会化、平民化的”中“自动”一词的讨论。
  16. 关于国内图书馆接受馆员进修,以及图书馆员是否需要学习数学、统计学的讨论
  17. 关于百度百科、维基百科作为信息源的讨论,百科工具和图书馆的合作,以及关于信息民主和自由的讨论
  18. 关于图书馆(学)领域研究、工作和服务的讨论
  19. 关于建立全国图书馆的地理信息系统的倡议以及《中国图书馆年鉴2013》的讨论。
  20. 关于图书馆承担考场布置工作的讨论
以下格式等价,请按需引用或修改后使用:

[1]圕人堂QQ群知识库.关于图书馆的舆情采集工作的讨论[EB/OL].(2015-03-27)[2025-04-05].http://tuan.pub/server/detail.php?id=1169.

[2]茶男,图谋,许继*,等.关于图书馆的舆情采集工作的讨论[DB/OL].圕人堂周讯,2015(46):16.

[3]茶男,图谋,许继*,等.关于图书馆的舆情采集工作的讨论[DB/OL].(2015-03-27)[2025-04-05].http://tuan.pub/server/detail.php?id=1169.