火车采集器如何设置每次任务采集数,网址是否重复等小功能的_爬虫软件技术与爬虫软件网页数据采集器门户

1、火车采集器是否检查网址重复,网址重复多少条 停止采集是在第一步设置的如下图

火车采集器细节功能解释截图1

勾选 检查网址重复,采集器就会采集的时候判读下这个网址是否已经采集过了,默认已经采集过的采集器不会再次采集

下面有个“网址连续重复多少条后停止采集网址” 这个顾名思义 大家汉语还是能看懂吧 这里就不解释了

2、火车采集器最大采集分页数,每次任务最大采集数,提取标签忽略大小写

是在规则第二步,采集内容规则 那里设置的 如下图

火车采集器细节功能解释截图2

3、火车采集器对不符合标签必须包含和不得包含的记录,是删除 还是标记为未采集

设置在第四步“文件保存及部分高级设置” 如下图

火车采集器细节功能解释截图3

4、火车采集器发布内容间隔时间,采集内容时间间隔时间

设置在第四步“文件保存及部分高级设置” 如下图

火车采集器细节功能解释截图4

这里说明下 这里的1000等于1秒

线程个数是指同一时间采集信息的条数

5、火车采集器下载地址保存为文件

有的时候采集到的图片呀 文件呀 先不要下载而是保存起来放到迅雷里下载 这里就可以有个选项,把这些文件下载地址保存到一个文件里,在采集器里面是不会下载的,设置如下:

火车采集器细节功能解释截图5

这个生成的“任务id.htm” 保存到,文件下载设置=》所有文件保存文件夹 这里你设置的文件夹中, 找到这个文件后用浏览器打开这个文件 就可以添加到迅雷里下载了。

6、火车采集器如何设置内容过滤

点击内容过滤四个字

火车采集器细节功能解释截图6

设置采集的结果不得包含什么词或者必须包含什么词

对数据不满足这里要求的处理参考上面第三点说明

7、火车采集器发布结束后对数据的处理

火车采集器细节功能解释截图7

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号