作者:辉创软件 来源:未知 浏览次数: 日期:2013-03-12 16:47
软件现有对文章采集分为智能范采集和正则精确采集2种模式。智能范采集虽然操作简单,但往往会采集到一些站内垃圾文章;正则采集模式虽然精准,但对正则表达式的要求较高。新版本综合考虑了操作和精确度需求,将原有的爬虫智能采集由范采集升级为栏目精确采集,用户只需要设置栏目编码页和文章前缀,即可很容易的采集到栏目下的文章。
以新浪史话栏目为例说明如何智能采集栏目文章。(也可以参考视频里演示的是英文BBC关键词的采集示例)
首先,进入智能采集入口,新建采集规则,设置栏目首页和文章前缀。
智能采集入口
设置栏目首页地址:该栏目的第1页是
http://roll.blog.sina.com.cn/list/cul/index_1.shtml
第2页是
http://roll.blog.sina.com.cn/list/cul/index_2.shtml
第3页是
http://roll.blog.sina.com.cn/list/cul/index_3./shtml
可以看到页面变化的只是1,2,3,将栏目的变化页面设置为
[page:起始页-结束页:页码间隔],页码间隔为可选,如果是1就不用填了.这里可以设置成http://roll.blog.sina.com.cn/list/cul/index_[page:1-5].shtml
设置文章前缀:看看该栏目下的3文章:
http://blog.sina.com.cn/s/blog_4b99db850102e1ub.html
http://blog.sina.com.cn/s/blog_4850e3f30101m82x.html
http://blog.sina.com.cn/s/blog_afdcd843010171dj.html
可以发现都是以http://blog.sina.com.cn/s/
开头的,所以文章前缀可以设置成http://blog.sina.com.cn/s/
只需2步,这样一个栏目采集规则就设置好了。
该模式也可以支持整站采集,只需要输入主页就可以采集了,不过采集的文章不够精准,可能会有一些不需要的文章。
同时,该采集是支持断点采集的,采集不完的下次是可以继续接着上次的地方继续采集的,如果需要重新采集,点击“重置”按钮,可以初始化相应的采集规则。
相比正则采集模式,该模式在操作上简单许多,而且精确度也不会差很多,关于正则采集可以参考:http://www.chongsoft.com/zixun/wenti/27.html