任何问题请联系WX:uu16853

买模板送网站采集器 让你轻松放开双手运营网站!

购买更多有优惠!

火车采集器之列表页附加参数获取功能使用方法_爬虫软件技术与爬虫软件网页数据采集器门户

列表页附加参数获取功能,是在采集内容页地址的时候,通过设置采集规则,获得的值,也就是获取列表页的值,该值将被循环的添加到每条记录上。 如下图,设置在 “添加多级网址采集规则” 的第四步: 我们通过采集腾讯新闻为例来说明这个功能如何使用。 比如我们采集腾讯新闻的时候,要把分类“时政新闻”这个分类加到每条信息里面。 和第二步建立标签一样,在源代码里面找到前后字符,然后我们建立一个标签[标签:分类],如下图,这里又有一个地方可以建立标签   所以标签并不是只能在第二步采集内容规则那里建立大家要明白,看下图: 设置好了我们点击保存,测试下。 因为这个标签的值是在列表页获取的,如果你直接到第二步采集测试是采集不到任何值的如下图: 上图看到,分类标签是灰颜色的,就表示这个标签是在采集地址的时候获取的,也就是通过第一步:采集网址规则,如果你不经过第一步直接在第二步测试的话 是没有值的。 必须通过测试网址如下图: 然后点击测试采集到的地址到第二步才可以. 选中地址,在列表页建立的标签和采集的值就会看到如上图。 然后双击地址就会跳转到第二步:采集内容规则 然后测试,就可以把列表页采集的标签显示出来如下图:

火车采集器之内容分页采集使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器之内容分页采集使用教程,采集文章的时候,难免遇到文章有分页,本教程讲解下内容分页的采集。 在规则的第二步:采集内容规则左下方有个“分页获取规则”选项卡,用来设置分页。如下图: 全部列出模式适用于分页地址全部显示出来如下图: 上下页上n页下n页适用用分页地址列出一部分如下图 我们先说下上下页模式的分页,以采集这个地址http://www.asia-home.com.cn/2013/0117/1358391833627.html为例 在第一页我们查看分页代码的情况如下: 在第三页分页代码的情况如下: 在第五页分页代码的情况如下: 通过上面我们是否可以得到一个规律:当前页的源代码是“<strong>当前页码</strong></a>”然后紧接着的代码“<a href=下一页的地址>”就包含了下一页的地址 然后以“</a>”结束,也就是从页面源代码“<strong>当前页码</strong></a>”开始然后再以“</a>”结束,中间就包含了“下一页”的地址,这就是我们说的上下页模式, 原理就是找到当前页如何获取到下一页地址的源代码格式,然后我们把这个源代码格式填写到采集器里面如下图: 左侧空白框填写的是“<strong>(*)</strong></a>”其中当前页的页码我们用(*)代替,右侧的空白框我们写的是“</a>”来做为结束,中间的就是下一页地址。 “自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址。 “手动填写分页地址规则”:有的时候采集器识别分页的时候遇到无法识别或者识别的不是很准确,我们就可以把分页的格式写上去,来确保识别分页的正确性。 一般是我们先用“自动识别”如果获取不到我们就用“手动填写分页地址规则”。本例子中如果我们用“手动填写分页地址规则”可以设置如下: 因为上面我们说明了下一页的地址格式是“<a href=下一页的地址>”,其中我们需要的部分用[参数]代替。下面用[参数1][参数2]等等按照顺序和上面的[参数]一一对应。 以上分页就设置好了,现在我们设置采集内容的规则: 设置的规则一定要适用于后面的分页,然后不要忘记勾选“该标签在分页中匹配”,如果不勾选是不会采集分页地址的。 如何实现采集到的分页发布到自己网站上也是同样的分页,设置如下: 标签循环处理选项卡下面有个“分页内容连接代码”,在这里设置了连接代码,采集到的每页的内容就会以这个连接码连接在一起。 我们手动在自己网站发布文章的时候,需要分页的时候,我们都设置一个分页代码各个网站系统是不一样的,遇到分页代码就会分页,那么我们就可以把自己网站上 生成分页的代码写到这个“分页内容连接代码”就能实现分页效果了。 我们看下采集的效果: 现在说下全部列出模式的分页,如下图: 设置下分页开始和结束。其他设置和上面上下页是一样的。 备注:其实所有的分页都是可以使用上下页模式的,无论分页地址是否全部或者部分列出,根据上面讲到的原理,找到规律就可以了,我写分页全部用上下页模式 还希望大家不用太死板,灵活运用才能更好的解决问题,其实没有什么难的,分析的方法我在上面写的很清楚了,就按照这个来做就可以了。太死板的人,是帮不了你了,无视就好。

100% Secure Checkout

PayPal / MasterCard / Visa