火车采集器如何设置每次任务采集数，网址是否重复等小功能的_爬虫软件技术与爬虫软件网页数据采集器门户

火车头采集2018 年 10 月 27 日

1、火车采集器是否检查网址重复，网址重复多少条停止采集是在第一步设置的如下图

火车采集器细节功能解释截图1

勾选检查网址重复，采集器就会采集的时候判读下这个网址是否已经采集过了，默认已经采集过的采集器不会再次采集

下面有个“网址连续重复多少条后停止采集网址” 这个顾名思义大家汉语还是能看懂吧这里就不解释了

2、火车采集器最大采集分页数，每次任务最大采集数，提取标签忽略大小写

是在规则第二步，采集内容规则那里设置的如下图

火车采集器细节功能解释截图2

3、火车采集器对不符合标签必须包含和不得包含的记录，是删除还是标记为未采集

设置在第四步“文件保存及部分高级设置” 如下图

火车采集器细节功能解释截图3

4、火车采集器发布内容间隔时间，采集内容时间间隔时间

设置在第四步“文件保存及部分高级设置” 如下图

火车采集器细节功能解释截图4

这里说明下这里的1000等于1秒

线程个数是指同一时间采集信息的条数

5、火车采集器下载地址保存为文件

有的时候采集到的图片呀文件呀先不要下载而是保存起来放到迅雷里下载这里就可以有个选项，把这些文件下载地址保存到一个文件里，在采集器里面是不会下载的，设置如下：

火车采集器细节功能解释截图5

这个生成的“任务id.htm” 保存到，文件下载设置=》所有文件保存文件夹这里你设置的文件夹中，找到这个文件后用浏览器打开这个文件就可以添加到迅雷里下载了。

6、火车采集器如何设置内容过滤

点击内容过滤四个字

火车采集器细节功能解释截图6

设置采集的结果不得包含什么词或者必须包含什么词

对数据不满足这里要求的处理参考上面第三点说明

7、火车采集器发布结束后对数据的处理

火车采集器细节功能解释截图7