火车采集器以淘宝和天猫多页采集为例
淘宝,例如
http://item.taobao.com/item.htm?id=16598015559
需要采集此页的宝贝详细
火车采集器经过抓包等一系列分析 得到 详细页真实地址 是
http://dsc.taobaocdn.com/i5/160/ … bk%3Bt%5E1352562053
查看网页源代码 可以发现 在这里
此时我们需要用到 多页匹配到 这个详细页真实地址,然后根据这个真实地址 采集就可以了
1、 点击
2、 命名为宝贝详情,用第二种方式,正则参数匹配 得到这个真实网址。
3、 你也可以在这里测试下 得到的网址对不对。
4、 正确的话 就保存
5、 然后标签里 调用多页
(1) 这里选择刚才保存的那个多页
(2) 根据多页地址,也就是宝贝详情的真实地址,设置前台截取
(3) 保存即可。
6、 测试结果如下
++++++++++++++++++++++++++++++++++++++++++++++
天猫,例如
http://detail.tmall.com/item.htm?id=19828008229
火车采集器多页地址
http://dsc.taobaocdn.com/i2/191/ … bk%3Bt%5E1352697004
源代码里
剩下的步骤 可以尝试 自己写。。。
一样的道理。。。
RSS