茶男:我插句嘴,问大家个技术问题可以么。我现在做的工作是监控几个网站,我的想法是检索这几个网站上关于某个关键词的内容,然后把网址反馈回来。比方说监控几个政府网站上关于图书馆的新闻,然后汇总起来。图谋:这应该不单单是技术问题。茶男:可能我想的太简单了,但是每天的工作量实在太大,都是手工的。图志粒:如果是手工操作,那确实是工作量很大。图谋:图林老姜先生搜集图书馆新闻,做了好些年。生清:@茶男 请问你这工作是舆情分析这块吗?茶男:很对很对。图志粒:着实佩服老师们的专业态度。生清:听说这样的分析绝大部分是基于机器分析的手工加工。图志粒:怎么说?生清:如果涉及信息的提取分析,主要是通过相关算法,程序进行处理。茶男:恩。我刚从图书馆被借调到舆情这一块,仔细想想这项工作跟图书馆很像啊。图谋:元数据收割,统一检索。只是当前好些元数据不让收割。生清:我也不太懂,现在国内搞这个的很多,但是哪家的技术比较好,我还真不太清楚,目前知道的东西都是在文章里看来的。茶男:类似于新闻采集。图志粒:有点明白了。茶男:类似于RSS,但是政府网站之类的大部分都不支持RSS。许继*:技术不懂,考虑一个逻辑:用搜索引擎高级搜索呢。图谋:湖南图书馆搞的《外媒看湖南》,他们估计有较为成熟的经验。图谋:不支持RSS,也就是因为一些元数据未开放。茶男:哦。图谋:因此前边说的,不仅仅是技术问题。当前各馆的书目信息,理论上应该能实现统一检索,事实上种种原因,能检索到的非常有限。道理亦相似。图志粒:元数据未开放,是否和版权也有一定的关系呢?生清:估计还不单是版权的问题,这和数据挖掘有关。茶男:恩。不懂了。图志粒:酱紫~生清:最近看大数据、云计算……发现茫然的东西太多。茶男:是,百度也出百度舆情了。图谋:当前的问题是,搜索引擎给出的结果,垃圾信息太多了。王云峰:百度很多年前还做过竞争情报系统呢。。。生清:很多都是难啃的骨头,虽然想法很简单,实现起来真要懂太多计算机的东西。图谋:原始信息垃圾多,收割过来的垃圾也多。许继*:不是限定网址么。许继*:刚才的问题里。茶男:是限定几个网址。许继*:限定网站。图志粒:还真不知道。。茶男:限定网址、限定时间段。图谋:许老师提供的方法,茶男倒是可以实际体验体验。茶男:恩,试验一下。图谋:最好能买个VPN,否则访问Google的效果大大折扣。茶男:有好用的VPN么。政府单位不太好翻墙。许继*:在你没编好程序前,可以先利用这个方法吧。图谋:许老师目前用google属于翻墙的?图志粒:谷歌还是比较好用的。许继*:是的。百度的功能可以试试。东北海边:这是把图书馆限定在域名尾为cn的网站检索?茶男:受教受教。许继*:我只是试了一下。如果固定的几个站点,我觉得内容会更精确。图谋:估计会有不小的帮助。茶男:恩恩。东北海边:许老师,如果再加上时限的限定,怎么弄。比如最近一个月。茶男:高级搜索中有时间限制。恩,我的想法就是在这个基础上,多几个关键词,多几个网站。东北海边:用过,不准。图谋:多个网站,用什么做分隔符?许继*:愿闻详情。茶男:就是同时搜几个网站,好几个关键词。图谋:不准的原因,其中之一是因为他们没有采用统一的元数据标准。许继*:似乎不可以加分隔符。茶男:我在想从新闻圕人堂周讯(总第46期 20150327)- 18 -采集的角度可不可以解决这个问题。许继*:谷歌应该可以。图谋:也许有‘机关’待发现。呵呵。许继*:逗号为或,空格为且。东北海边:谷歌,我们好象一年都没用了,进不去。图志粒:被限制了。。要翻墙。图谋:若干检索技巧,期待有人分享。山西武*:许老师检索能力比较牛。茶男:学习了。
以下格式等价,请按需引用或修改后使用:
[1]圕人堂QQ群知识库.关于图书馆的舆情采集工作的讨论[EB/OL].(2015-03-27)[2024-11-22].http://tuan.pub/server/detail.php?id=1169.
[2]茶男,图谋,许继*,等.关于图书馆的舆情采集工作的讨论[DB/OL].圕人堂周讯,2015(46):16.
[3]茶男,图谋,许继*,等.关于图书馆的舆情采集工作的讨论[DB/OL].(2015-03-27)[2024-11-22].http://tuan.pub/server/detail.php?id=1169.