火车采集器之列表页附加参数获取功能使用方法_爬虫软件技术与爬虫软件网页数据采集器门户

列表页附加参数获取功能,是在采集内容页地址的时候,通过设置采集规则,获得的值,也就是获取列表页的值,该值将被循环的添加到每条记录上。

如下图,设置在 “添加多级网址采集规则” 的第四步:

火车采集器之列表页附加参数获取功能使用方法教程截图1

我们通过采集腾讯新闻为例来说明这个功能如何使用。

火车采集器之列表页附加参数获取功能使用方法教程截图2

比如我们采集腾讯新闻的时候,要把分类“时政新闻”这个分类加到每条信息里面。

和第二步建立标签一样,在源代码里面找到前后字符,然后我们建立一个标签[标签:分类],如下图,这里又有一个地方可以建立标签

 

所以标签并不是只能在第二步采集内容规则那里建立大家要明白,看下图:

火车采集器之列表页附加参数获取功能使用方法教程截图3

设置好了我们点击保存,测试下。

因为这个标签的值是在列表页获取的,如果你直接到第二步采集测试是采集不到任何值的如下图:

火车采集器之列表页附加参数获取功能使用方法教程截图4

上图看到,分类标签是灰颜色的,就表示这个标签是在采集地址的时候获取的,也就是通过第一步:采集网址规则,如果你不经过第一步直接在第二步测试的话

是没有值的。

必须通过测试网址如下图:

火车采集器之列表页附加参数获取功能使用方法教程截图5

然后点击测试采集到的地址到第二步才可以.

火车采集器之列表页附加参数获取功能使用方法教程截图6

选中地址,在列表页建立的标签和采集的值就会看到如上图。

然后双击地址就会跳转到第二步:采集内容规则 然后测试,就可以把列表页采集的标签显示出来如下图:

火车采集器之列表页附加参数获取功能使用方法教程截图7

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号