火车采集器标签组合的使用方法截图教程_爬虫软件技术与爬虫软件网页数据采集器门户

如何把火车采集器2个标签采集的内容组合在一起改怎么做呢?

这里可以使用火车采集器的标签组合,如下图:

火车采集器标签组合的使用方法讲解截图1

我们把标题和下载地址标签组合成一个新标签,之间用“$$$$”隔开,我们测试下结果如下图:

火车采集器标签组合的使用方法讲解截图2

那么标签还有一种组合方式看下图:

火车采集器标签组合的使用方法讲解截图3

这种方式测试的结果是怎么样的呢,应该是和上面的情况是一样的吧 ,谁知道呢,我们测试下看看吧

火车采集器标签组合的使用方法讲解截图4

哎呦好神奇呀 一样呀 原来组合有2种方式呀 是吧

关于标签组合功能的使用说明

火车采集器v7版本增加了一个标签组合的功能,许多朋友在使用中发现组合的结果和自己想要的结果不一致,下面我来说明一下该功能的使用。

1.标签组合组合的是文件下载前的内容

有的朋友发现,a标签中下载了某个文件,原始地址是aaa,下载后或是探测的地址为bbb,那么,如果您在b标签中组合使用a标签,a标签的值是aaa.为何使用这种处理方法,是因为文件下载是在标签组合之后进行的。如何达到标签内容是文件下载完后的结果呢?可以新建一个标签,选“自定义固定格式数据”,将您标签组合的内容放进去。这里的替换会在文件下载后执行。

2.火车采集器内容页标签循环采集并添加为新记录

如果组合的两个标签都是内容页标签,这两个标签在组合时,会按循环数最大的记录产生新的同样数目的循环记录。如果某个标签的循环数较少,则新产生的标签中该标签的值为空。例如标签a,b组合生成标签c。a的循环数是5,b的循环数是3,则会生成5个c,其中,前3个标签的值分别是a,b一一对应的。最后两个值中,b的值为空。假设a的值是11,22,33,44,55,b的值为aa,bb,cc.c是由组合, 则产生的c的值为11aa,22bb,33cc,44,55.

3.火车采集器列表页标签和内容页标签组合

如果两个标签中一个是内容页,一个是列表页,则内容页是会参加第2条中的循环处理,在这个过程中列表页当作一个字符串处理。合并完成后,程序会再进行数据处理操作。最后,组合标签中的列表页标签内容将被替换成实际的值。组合后的结果中,可以再提取下载。比如内容页a和列表页b组合生成c,其中a的值为11,22,22,b的值为bb,那么,c第一次组合结果是 11,22,33,然后进行数据处理。如果b的值是bb,那么最后的结果就可能是11bb,22bb,33bb.

有的朋友可能会说,干嘛将这个功能搞这么复杂的。其实,这个功能主要是为第一条的功能使用的,其它的组合方式可能会产生和原想法不一样的结果。建议大家不要滥用这个功能,不要将它想像成万能的。

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号