任何问题请联系WX:uu16853

买模板送网站采集器 让你轻松放开双手运营网站!

购买更多有优惠!

火车采集器V9智联招聘信息采集规则制作截图教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9智联招聘信息采集规则制作截图教程案例讲解 第一步:设置火车采集器起始网址 打开网址:http://sou.zhaopin.com/ 同时这也是火车采集器的入口网址,将此网址输入在火车采集器的起始网址中 打开网站我们可以看到,这上面都是招聘信息的职位类别,我们要采集到这些类别的链接,我们查看源码,如下图: 第二步:获取类别链接及类别名称 这里我们除了将类别网址链接获取到,同时将类别名称获取到,所以这里使用了列表页标签功能 通过源码找到获取链接的规则如下: onclick="javascript(*)href="[参数]"(*)_blank"></a> 参照上图进行设置,这样类别链接获取就设置好了,然后我们点开任意类别页面,进入招聘信息列表页,如下图: 第三步:内容页网址获取设置 我们要获取列表页上的招聘信息网址,也就是内容页网址,同样我们查询源码,分析规则,如下图: 这里已经是属于第二级网址,我们将网址设置切换为高级模式,然后添加2级列表页,然后设置如下: 这样内容页的网址链接采集就设置好了,但我们发现列表页下方还有分页,所以我们还要设置分页 第四步:设置分页 获取如下图中的分页 同样是查询源码寻找规则, 然后火车采集器,选择分页设置,设置好分页范围,以及分页链接的规则,上一页(*)class="current"(*)参照下图: 设置好后,我们进行网址测试,如下图: 这样所有网址采集就设置好了 第五步:招聘信息内容采集设置 我们打开任意招聘信息内容页,采集页面上的信息,如下图: 采集器切换到内容采集规则,内容的采集就不一个一个讲,这里没有什么难点,还是查看网页源码,分析规则进行设置即可,大家可自行查看每个字段的规则设置,来学习规则原理,参照下图: 第六步:测试火车采集规则 所有的内容字段采集设置好,我们进行测试,可以多测试几个页面,以确保规则能够没问题。 当然我们在设置每个字段的时候也可以进行测试来检验规则。 确保没问题后就可以进行采集了,看这速度,是不是很爽爽!!赶紧去试试吧!

火车浏览器百度地图商家信息采集详细讲解_爬虫软件技术与爬虫软件网页数据采集器门户

1、打开百度地图,以推拿为关键词采集一个城市的所有推拿店的信息,包括名称、地址、电话、坐标。 2、进入火车浏览器的操作界面,开始脚本的编写。 3、新建百度推拿脚本并逐一添加步骤。 ①首先是打开百度地图网页 网址输入:http://api.map.baidu.com/lbsapi/getpoint/index.html ②然后输入城市 (1)这里注意,复杂的提取可能会用到xpath,(对xpath感兴趣的话可以看看这个深入学习一下,http://www.w3school.com.cn/ )对于一些简单的直接用浏览器的点选按钮在页面上点击选取即可拾取对应的xpath了。 (2)另外需要注意对变量的管理。我们找到输入框,接下来就是添加变量,写入城市、关键词。 ③设置变量的值——北京(可单步测试运行,测试能否输入城市名称) ④点击“百度一下”,及右键点击暂停等待——元素操作——点击 ⑤同理,输入城市后,我们需要输入推拿并再次点击百度,就可以找到有关推拿的商家了。 4、上面是模拟访问,接下来是采集:把页面右方出现的信息采集下来,由于右方的信息有很多页,所以我们要进行分页采集。 ⑥先来采集首页,设置一个循环并对页面进行一个条件判断,即判断有无数据:如有,则判断为真,单次取值;如判断为假,结束当前循环。 ⑦这是采集其他页(分页),加了一个点击。 ⑧最后一步,就是把采集的数据进行处理,如果有本地运行环境的话是可以导入数据库,没有的话,可以直接导入到本地。 完成后,可查看运行日志,检查每一步骤有没有成功。 火车浏览器的功能还是比较强大的,除了采集之外,群发、批量注册、自动打码等一系列复杂的网页操作都可以轻松实现。

火车采集器V9知乎网站关键词搜索信息采集教程_爬虫软件技术与爬虫软件网页数据采集器门户

今天给大家分享知乎网站问题及第一条回答内容的采集采集,通过搜索关键词采集相应的内容,本案例需要用到抓包工具来获取入口网址,以及获得UA。下面的案例讲解给大家简单作讲解! 本规则采集知乎网站问题信息为例,本规则以通过关键词搜索问题,采集相应文章及第一条回答等内容。 【案例讲解】 第一步:打开网址 https://www.zhihu.com/ 然后登录账号,然后搜索你想要的guanjianci,如“一带一路”,参照下图: 第二步:使用Fiddler 抓包软件(关于Fiddler软件介绍请查看:http://faq.locoy.com/search.html?&keyword=Fiddler 之前介绍过,这里不再讲解,也可以查看之前的东哥福利)打开软件,然后点击网页上的更多,参照下图: 然后回到抓包软件,寻找抓到的网址,参照下图 然后通过获取到的网址:https://www.zhihu.com/r/search?q … e=content&offset=10 发现网址中的10为分页参数,并且1-20任意值代表第一个分页,11-20任意值代表第2个分页,依此类推,那换到规律,我可以从1开始,然后每次递增10,这样就是1、11、21、31……等,我们按照这样的规则设置分页参数,这里仅设置5页,如下图: 第三步:采集内容网址,通过源码分析,发现网址是这样的“\/question\/49185959\”,如下图: 因网址中间有特殊符号,不能直接采集,我们可以这样设置规则,只采集其中的数字,前面是固定值,变化的只有数字,然后进行网址拼接,如下图: 第四步:内容采集设置,在这里要注意的是,知乎需要设置下UA,才能进行采集,否则将采不到内容,如何获得UA,首先打开抓包软件,然后找开要采集的内容网址页,然后抓包获得UA值,参照以下三个图: 先找到内容网址 然后右侧点击 RAW 再点击右下解的按钮 然后在记事本中复制UA值 ,然后我们在采集器中打开其他设置,将UA值粘贴到UA里面,如下图: 然后回到内容采集设置,进行内容规则设置,这里没有什么特别的难点,就不再细讲,设置好后,进行测试,如下图: 显示上图这样,就表示 设置OK了,我们可以进行采集啦! 你学会了吗?

火车采集器V9微信公众号文章采集规则制作教程分享_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9微信公众号文章采集规则制作教程分享 如何通过搜狗微信 http://weixin.sogou.com/ 采集微信公众号文章,今天这里讲解通过关键词搜索微信内容进行采集。 首页打开上面的网址,输入你要关键词,如“金融”,如下图: 然后下方点击分页,然后复制地址栏中的网址,到采集器 打开火车采集器的网址中的page=2为分页规则,在采集器设置如下: 将2设为[地址参数],确定后设置内容网址获取规则,通过分析源码,进行如下设置,如图: 设置好后,可以进行网址测试,看能否采集到网址,测试正常,如下图: 然后我们进行内容采集规则设置,因没有什么特别难的地方,就不详细说明,仅提下微信中图片的下载,微信的图片下载,仅选择下载图片是不能下载的,必须将“探测文件并下载”√选上,参照下图: 设置好规则好,我们进行测试采集,都获取到内容了

火车采集器V9版JSon功能讲解及示例规则制作教程_爬虫软件技术与爬虫软件网页数据采集器门户

很多网站的数据结构用到了Json格式,那么遇到这种格式的数据,用正常的采集规则是很难完美采集的,所以火车采集器V9也提供了Json采集的功能,今天这里给大家介绍下Json功能,如何去通过Json工具采集数据。 在这里主要介绍Json 所以我找了一个,Json格式的网页,仅对Json格式采集功能作介绍,其他略过,所以我也直接拿Json格式数据的网址作为内容页,下面请看详解。 我们要采的数据在网页中显示是这样的,如下图: 我们要采集表格中的数据,发现在网页源码中并没有这些数据 通过抓包获得数据网址:https://baoxian.taobao.com/json/item/insuredProject.do?callback=jsonp333&item_id=43464493792 打开网址我们发现数据是这样的,如下图: 通过上图,老司机可能觉得这也可以通过正常规则采集,是的上面的部分内容,确实可以通过正常规则采集,但大家注意看,保障说明、保障金额等是没办法正常采集的,其实懂的人一眼能看出来这是一个Json格式的数据。不懂得人怎么办呢?没关系,如果你遇到与这个类似格式的数据,我们先假设他就是Json,然后使用火车采集器的Json工具看能不能读取出数据。下面介绍火车采集器如何使用Json工具来采集。 先看上图,在内容标签采集设置这里,我们选择JSON提取,可以看到JSON工具,我们点击,出现下图: 参照上图,点击选择按钮,然后选择URL网址(这里先只介绍URL这一类型),然后把我们上面的网址输入进去,点击确定,如果能出现下图,这样的目录型结构,那就一定是Json格式了 我们继续,默认所有的都闭合的,需要我们点开,那就一个一个点看,只到发现你要的数据,数据一般都在data中,如上图中,desc中的文字信息是我们要的数据,总共16条,每条都需要,上图的右下角提示按Ctrl选多个节点,获取多条数据,在这里告诉大家,不管有多少条,如果你要获取多条数据不需要每个都点,只需点两条即可,可以看到上图中的JSON表达式中最后一个[]中的数值变成*号那就是代表采集多条数据。就这样,我们保存即可,然后以此类推,设置其他的标签,就是这么简单,使用JSON工具点点选选即可。 经测试,完美采集到了,对了如果是多条数据要设置循环哦。赶紧去试试火车采集器Json工具吧.。

火车采集器采集东方财富网股票业绩信息规则教程_爬虫软件技术与爬虫软件网页数据采集器门户

今天主要讲解火车采集器采集东方财富网股票业绩预告信息规则教程,起始网址页即为内容页和标签循环采集功能,其他略过! 我们要采集的网址:http://data.eastmoney.com/bbsj/201703/yjyg.html 如上图,我们需要采集表格中的信息。 底部有分页,总共29页,发现点击分页,网址并无变化,那就这就需要我们使用抓包软件Fiddler(学习抓包)来抓取真实地址,如下图: 通过抓包我们找到了有我们需要的数据的页面地址,我们将网址复制出来,参照下图: 通过火车采集器网址规则分析到分页的参数变量,一般可以通过抓取多个分页的网址进行对比就知道哪个是分页变量了,找到变量规则后,我就可可以通过网址分页规则进行设置,共29页,如下图: 通过抓包软件,我们看到我们所要采的数据就在抓取的分页中,就并不需要再采集内容页,我们要的内容就在起始网址页中,那么我们就需要使用火车采集器的起始网址就是内容页网址,我们点击“点击设置”,如下图: 点击出现下图,是灰色的,不能进行任何设置,因为我们不需要设置采集内容页网址了,所以这里不操作。 直接进入内容采集规则设置界面,如下图,因为我们需要采的内容是表格内容并且都在一个页面上,所以我们需要使用循环采集,所以设置标签的时候,每个标签都要将循环匹配√选上。(每个标签的内容采集规则这里不多说,大家可以下载规则自行测试学习,其实还是有一定的小技巧的) 网页上的表格数据,一行一条信息,所以我们采集下来也是需要一行一条信息,那在左侧下方的循环设置中我们要进行设置,改为“添加新记录”,这样我们采集的信息就会一行一条,否则所有信息将堆积在一起,只有一条信息。参照下图: 设置好火车采集器采集规则后我们进行测试,出现下图即为设置成功 另外讲下,在采集该页面信息进行循环时,发现第一条信息和其他信息的规则不一样,经过分析,只能循环采集每页的除第一条的其他信息。那这应该怎么办?这个没有更好的方法,页面数据规则太过简单,无法找到一个能够匹配所有信息的规则,解决方法只有一个笨方法,但是也是唯一可以解决此问题的。那就是先循环采集所有信息,然后再设一个规则只针对第一条信息,再采一次最后合并。这里分享的规则不能采集到第一条信息,大家可以按照我的思路去尝试采集第一条信息。

火车采集器采集住哪儿网酒店信息采集规则制作教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器采集住哪儿网酒店信息采集规则制作教程以北京地区酒店信息为例,入口页面:http://www.zhuna.cn/hotellist/e0101/ 通过页面点击发现这并不是真实的数据列表页,需要通过抓包软件来抓包,找出真实列表网址(抓包之前说过,今天这里不再细说),通过抓包获得真实网址为:http://www.zhuna.cn/?m=search.getList&page=1&sort=0&distance=3&ecityid=0101&cityname=%E5%8C%97%E4%BA%AC 在火车采集器网址中的page=1为列表页分页参数,通过分页规则,采集列表网址,如图: 下一步获取内容页网址,通过源码分析,发现源码中并没有网址,但可以看到一个ID值,如图: 通过页面点击内容页发现内容网址为http://www.zhuna.cn/hotel-5396.html 网址中的数字很可能就是这个ID值,将源码中的ID值替换到这个网址中,发现就是酒店详细内容页,这样我们只要采集这个ID值即可。这个获取规则也很简单,以{"id":开头,以 , 结尾,就可以获取到ID值,但光有ID值不行,这个时候我们要拼接出完整的内容网址,那这样拼接http://www.zhuna.cn/hotel-[参数1].html即可,如图: 通过火车采集器网址测试,可以顺利采集到内容网址 酒店的基本信息在内容页源码中都有,规则也比较简单,在这里就略过,最后来张采集动态图

火车采集器V9安居客小区信息采集规则制作教程_爬虫软件技术与爬虫软件网页数据采集器门户

 火车采集器V9安居客小区规则分享.rar (45.07 KB, 下载次数: 238)  火车采集器V9安居客小区信息采集规则制作教程 今天主要讲解多页功能,其他略过! 我们抓取的信息中有小区的房源数量数据,发现在网页源码中并没有此数据。通过抓包软件fiddler抓包分析可以获取到该数据的真实网址,参照下图: 通过网址可以发现一个ID参数“337684”,于是我们可在内容页源码中看能否查找到应该ID值 通过搜索我们发现源码中存在这个值,那我们就可以通过这个值 在多页功能中拼接出房源数量数据的网址,参照下图: 左侧是获取该ID值的规则,右侧是拼接出网址,起一个名称,保存多页,下一步我们就可以通过此页获取房源数量 添加标签,通过拼接的多页网址,分析获取数据规则,注意上图的数据来源,一定要选择关联多页。这样我们就可以通过多页功能获取到隐藏的房源数量信息了,你学会了吗?

如何使用火车采集器抓取手机APP采集内容抓包教程_爬虫软件技术与爬虫软件网页数据采集器门户

 火车采集器可以抓取http以及https请求中的内容,因此只要手机APP是这两种请求类型,那么其中的内容理论上就是可以抓取的。下面介绍下怎么抓取手机APP的请求。下面以苹果手机中的京东APP为例: (1)查看fiddler的端口号为多少,例下图: (2)查看本地局域网的固定IP为多少,例下图: (3)在手机中设置代理服务器,将端口号以及IP写入,例下图:   如上图设置好后,就可以将fiddler保持Capturing的状态,然后操作京东的APP,就可以看到其中的请求了,如下图:   然后你就可以在采集器中做规则,测试该http是否可以采集了。

火车采集器之常用正则表达式代码分享_爬虫软件技术与爬虫软件网页数据采集器门户

<数字匹配> [1-9][0-9]{5,9} 匹配6到10位QQ号码 [1-9]表示第一位不能为0   [1,2,3,4,5][0-9]{5,9} 匹配6到10位QQ号码 [1,2,3,4,5]表示第一位能为1,2,3,4,5   匹配中国邮政编码:[1-9]\d{5}(?!\d) 评注:中国邮政编码为6位数字 说明:(?!\d)表示非数字的后续内容。 比方字符串 555555dasfdsf, dasfdsf就不会被提取,只捕获前面。  在一定条件下有用,在某些条件下又是多余的。   匹配国内电话号码:\d{3}-\d{8}|\d{4}-\d{7} 评注:匹配形式如 0511-4405222 或 021-87888822   匹配身份证:\d{17}[a-z0-9A-Z]{1} 评注:中国的身份证18位   <email匹配> 匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 评注:表单验证时很实用   <汉字匹配> 匹配中文字符的正则表达式: [\u4e00-\u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了   匹配双字节字符(包括汉字在内):[^\x00-\xff] 评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)   <链接匹配> 匹配网址URL的正则表达式:[a-zA-z]+://[^\s]* 评注:网上流传的版本功能很有限,上面这个基本可以满足需求   <ip匹配> 匹配ip地址:\d+\.\d+\.\d+\.\d+ 评注:提取ip地址时有用 提取最后一个数字的正则表达式 (\d+)\. 或者 \d+(?=\.)   

火车采集器V9.7多网站站群式发布细节教程详解_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7多网站站群式发布,指选择多个发布配置时,同一条数据不会重复发布至一个网站中: 发布条件:假设有3个发布配置A,B,C,一共有20条数据1,2,3,4,5….20需要发布 下面介绍下不同发布方式下,数据的发布情况 (1) 正序发布-多网站站群式发布: 按正序顺序一条条将20条数据分配给三个配置,分配方式为: A:1,4,7,10,13,16,19 B:2,5,8,11,14,17,20 C:3,6,9,12,15,18 (2)倒序发布-多网站站群式发布:按倒序顺序一条条将20条数据分配该三个配置,分配方式为: A:20,17,14,11,8,5,2 B:19,16,13,10,7,4,1 C:18,15,12,9,6,3 (3)乱序发布-多网站站群式发布:呈乱序随机选择数据发布配置发布,所以数据发布是完全随机的。

火车采集器V9.7本地sqlite数据库id初始化的方法_爬虫软件技术与爬虫软件网页数据采集器门户

sqlite中设置自增ID后,自增ID已经记录,就算清空已经采集的内容,再次采集时,自增ID也是从上一次的ID后递增,想要重置自增ID从零开始,需要按以下步骤设置: (1)首先清空采集所有内容 (2) 在本地编辑数据库的执行sql语句中运行语句即可: UPDATE sqlite_sequence SET seq =0 WHERE name ='Content'     注意:(1)本方法只针对sqlite (2)运行该语句前,需要先清空采集器中已采集数据

如何解决火车采集器本地保存word文件时图片不显显示的问题_爬虫软件技术与爬虫软件网页数据采集器门户

如何解决火车采集器本地保存word文件时图片不显显示的问题 采集文章信息保存word想要有显示图片: 实现的方法如下: 1.采集数据时,需要保证图片链接在img标签内 确保获取的图片链接是完整链接并在img src代码段内。 2.需要将获取到的图片链接设置下载到采集器本地。 以上设置处理后再运行任务即可。

火车头采集器V9.7最新的web发布使用方法教程_爬虫软件技术与爬虫软件网页数据采集器门户

Web发布中内容发布之前的版本一直是粘贴发布中抓包的数据,然后软件自动分析表单名与表单值,但是对于一些特殊要求的发布网站,这个功能就不大好用,因此,新版本添加了新的自定义发布数据的功能,可以更方便的处理一些复杂的网站。 下面介绍下自定义数据的功能: (1)对于使用json或者其他特殊格式作为post的网站,那么就可以直接使用自定义数据。 (2)对于一些表单项个数不确定的网站。 ①比如发布商品时,有添加发布图片,发布图片有几个那么就需要添加几个表单项,那么就必须要使用自定义数据,发布的图片在采集数据的标签中就定义好,然后发布模块直接调用该标签中的值 ②比如发布分类时,有各种不同的颜色,每增加一种颜色就会增加一个表单项,但是每种产品颜色数量不固定的时候,这时就可以使用自定义发布数据来做。   还有各种不同的应用场景,具体结合需求来做。不过简单的发布还是建议使用发布web本身的发布即可,这种方式要更明确一些。 下面以opencart发布商品图片为例来讲解该功能用法,教程中主要讲自定义发布数据用法,发布模块制作方法就简单截图示意: (1) 首先,我们手动发布一条商品信息,使用fiddler抓包分析下发布格式: 这种出现的form-data格式的参数,我们现在用自定义发布的话,最好是使用 application/x-www-form-urlencoded,因此我们可以在发布模块中写一个简单的发布模块,看下application/x-www-form-urlencoded这种是什么格式: 直接将post参数粘贴在程序中,然后点击提取,因为opencart较特殊,还会在高级功能中产生文件上传,但是这个实际是没有作用的,因此我们手动将他删除掉 接下来,就是测试发布试下得到接下来就可以点击保存,然后在配置文件中配置好地址参数,接下来就是测试发布使用fiddler抓包得到application/x-www-form-urlencoded格式的post参数,参数格式如下图: (3)已经得到post参数格式如下图: 接下来就是分析图片上传的参数格式: 如上图分析,可以看出,①处是主图上传的参数,②处是上传的两个附图,因此我们只需要将上传的两个附图处理成如②中的参数格式就能正确上传多个附图。现在我们先将post参数填入自定义发布数据中,并定义好标签名称,地址中的随机值也定义为全局变量,接下来的操作就是在采集规则中定义的: (3) 下面以 http://www.jammerall.com/products/Desktop-Adjustable-4W-All-5.2G-5.8G-2.4G-WIFI-Jammer-.html,这个产品的采集为例,介绍下怎么处理采集规则,这个产品的采集需要cookie,因此使用fiddler抓取cookie并放入火车采集器中,然后将需要采集的标签通过发布模块导入采集器中: 下面将所需设置的标签采集规则设置好,设置并下载图片后如下图: 其中商品标题之类,加了字符编码的处理,因为在使用自定义发布数据的时候,是不会对发布的内容进行加密的,因此我们要在采集规则的时候就加密: 我们采集的规则应该可以看出,主图的结果已经是符合格式要求的了,我们现在要处理的就是附图的格式,我们来对比下,我们现在抓取到的格式以及要处理成的格式 我们抓取到的格式是以逗号间隔,但是我们处理的格式是需要每一张图片都有一个递增的序号,并加上一些前缀后缀来处理,这种的话,我们就必须使用C#代码来处理,这边我们提供下这个样板的代码: using System; using System.Collections.Generic; using SpiderInterface; class LocoyCode{ public string Run(string content,ResponseEntry response){ string[] strArray = content.Split(','); int len=strArray.Length; string t; content=""; for(int i=0;i<len;i++) { t=strArray[i]; content=content+"&product_image["+i+"][image]="+t+"&product_image["+i+"][sort_order]=0"; } return content; } } 填在C# […]

火车浏览器6.7版本安装后运行提示无法加载Dll解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车浏览器6.7版本安装后,运行提示,如下图: 解决方法是:需要安装一部分vc++组件,下载安装即可。 在安装火车浏览器6.7版本软件中出现这样或那样的问题,经查大多是vc环境有问题引起。所以安装中有问题,可以先试一下安装所有的vc环境。 所有VC安装包下载:百度搜索-VC_RedistInstaller.rar

火车采集器才代理https类型网址设置二级代理时需注意事项_爬虫软件技术与爬虫软件网页数据采集器门户

https类型网址,因为https协议中规定,https类型的网址是加密网址,采用的是长连接请求方式,所以在使用代理时,多次请求不会自动更换代理IP。 我们为了实现更换代理IP的最终目的,那我们需要在http请求头设置中添加 Connection 请求头的值为Closed。如下图红线处 代理设置 此项包含不使用代理,使用IE浏览器代理,使用指定代理三种模式。 其中指定代理模式可以设置固定的一个代理或者二级代理随机切换IP采集。 接下来,我们来了解下二级随机代理的设置 开始菜单–http二级代理 ①二级代理设置界面 ②页面缓存:使用二级代理采集时,同一个网址,多次的请求中,原页面可能并不存在任何的更新,所以直接调用缓存页面节约代理资源,提高了访问速度。通过设置网址必须包含和内容必须包含,则符合条件的内容会缓存在本地 ③选项设置:二级代理验证设置或自动拨号设置 ④运行日志 ⑤添加 ⑥编辑 ⑦删除选中 ⑧删除失效 ⑨批量验证:验证IP是否有效 ⑩全部设置为未验证 ⑪批量导入 (1)先准备好一个有IP地址的TXT文件导入 格式为:ip:端口,一行一个 点击⑪批量导入–浏览–选中 代理.txt 文件。 这样,代理IP 就导入进来了,如图: (2)设置端口/设置选项设置 设置端口,默认是8888 根据采集的网站地址来设置验证 查看此网页源代码,找个在正常访问时含有的某个字符串做标识(注意:当不正常访问时,比如封IP时,就不含有此字符),在这里可以根据

火车采集器V9.7奶盘伪原创操作配置教程_爬虫软件技术与爬虫软件网页数据采集器门户

“火车伪原创插件.dll” 文件放到Plugins目录下。 “火车伪原创插件配置工具.exe” 文件放在采集器根目录下,和LocoySpider.exe放在同一目录。 通过使用配置工具来 填写账号、密码等信息即可。 新建任务,创建"标题"和"内容"标签, 然后在其他设置中->插件->采集结果处理插件,选择"火车伪原创插件.dll"即可。 奶盘伪原创操作配置教程注意 (1)若是运行插件时出现如下错误:dnguard错误 则需要删除火车采集器安装目录的system目录下的 Runtime32.dll以及Runtime64.dll 文件 (2)若是出现如下错误,是因为未将奶盘伪原创的exe放在火车采集器的安装目录下,请将该exe文件放在火车采集器目录下后再进行测试。

火车采集器V9.7二级代理IP运用示例教程_爬虫软件技术与爬虫软件网页数据采集器门户

 火车采集器代理IP设置方式目前分为两种: (1)将代理IP放在文本中,然后手动导入文本中IP。然后由 采集任务调用。 这种方式若代理IP时效性比较长,可以使用此种方式。 (2)若是对方网站封IP速度较快,则是建议使用API的方式。API每次请求可以获取不同的代理IP,并且可以设置定时刷新。

火车采集器V9.7的mysql入库存储过程实现功能教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7的mysql入库存储过程实现功能教程 对于会更新数据的网站,如果可以通过一个字段判断该网页数据是否更新,则可以编写存储过程来实现,数据库中已有数据的更新,然后新增数据直接插入数据库的功能: 存储过程语句如下: CREATE DEFINER=`root`@`%` PROCEDURE `yhaves`(IN `gaame` VARCHAR(50), IN `plorm` VARCHAR(50), IN `serrea` VARCHAR(200))     LANGUAGE SQL     NOT DETERMINISTIC     CONTAINS SQL     SQL SECURITY DEFINER     COMMENT '' BEGIN DECLARE cnt INT default 0; select id into cnt from diyiyou where gamename=gaame limit 1;   if cnt=0 then    insert into diyiyou(gamename,platform,servicarea) […]

火车采集器V9.7入库模块存储过程使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7入库模块存储过程使用教程,当有类似下列应用场景: 将甲同学的姓名插入useinfo表,另甲同学有多张图片,需插入pic表,并且要求两表相关联,图片是一张图片插入一行。 那这就要求,pic表可以获得useinfo表中甲同学的自增ID。这种复杂的插入过程,则需要存储过程了。 以上述情况,可使用如下存储过程 首先在数据库手动创建存储过程,这个heidisql工具创建存储过程的界面,传入参数,需要手动添加。存储过程建立好后。 在火车采集器的入库模块中可以直接调用: 其中需要注意,插入的图片标签中的值是以 逗号间隔: 执行结果: 若是有类似的情况可以修改下存储过程,一些关于存储过程的详细使用方法,可以百度教程自行学习哦。这里仅提供使用示

火车采集器错误该字符串未被识别为有效的DateTime的解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器错误该字符串未被识别为有效的DateTime的解决方法 采集器运行规则采集的时候出现以下错误 解决方法: 打开控制面板–>选择  ”时间,语言和区域“  分类–>选择  “区域”    按照以下截图修改时间日期格式即可 注:修改设置完成后,重启计算机

火车采集器V9.7用cmd命令控制采集器运行任务规则或分组之后关闭_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7用cmd命令控制采集器运行任务规则或分组之后关闭 在火车采集器安装目录中,按shift键再右键选择  “在此处打开命令窗口”   执行如下命令分别实现不同功能 1.   LocoySpider.exe jobxx closeapp     运行采集器中的任务ID是xx的规则,运行结束之后,关闭软件 2.   LocoySpider.exe sitexx closeapp     运行采集器中的分组ID是xx下的所有规则,运行结束之后,关闭软件 3.   LocoySpider.exe jobxx closesys      运行采集器中的任务ID是xx的规则,运行结束之后,关闭计算机 在执行上述命令语句的时候,采集器是已经关闭的状态下执行。执行命令之后会自动打开采集器软件,如果软件登录界面没有勾选自动登录方式,需要用户手动点击登录按钮才可以继续运行  

火车采集器V9.7之采集预警配置教程截图_爬虫软件技术与爬虫软件网页数据采集器门户

采集器9.4.3.0619新增采集预警功能,如下图 该功能是:当采集完成后,如果采集结果符合预设条件时,向指定邮箱发送预警邮件。 预设条件可选择为: 发送邮件注意事项: 1.发邮件的邮箱必须要开通POP/IMAP 2.发送邮件的类型是SMTP,不同种类邮箱的服务器端口以及非SSL协议端口号是不同的,下面以163邮箱为例: 其他的邮箱如何开通POP/IMAP,以及发送邮件的SMTP的服务器地址等信息,大家可以百度搜索一下,这里就不一一讲解了。 3.设置邮箱后,可以测试发送邮箱内容,如果测试发布报错,因为邮箱报错返回的信息不一定准确,所以无法根据错误弹框中的内容来判定哪一部分出错。 您排除出错方式为①判断用户名密码是否正确②确定您的发送邮件的邮箱是否正常开通了pop/imap

火车采集器V9.7定时采集发布计划任务设置教程介绍_爬虫软件技术与爬虫软件网页数据采集器门户

很多朋友在用火车采集器的时候,希望能够定时自动采集自动发布,尤其是需要网站更新内容的,人没办法24小时守在电脑前,那定时采集发布功能就很有必要了。 今天就给大家来介绍一下火车采集器V9的计划任务功能来实现自动采集发布。 第一步:首先要确定你的采集和发布规则都已经设置好的前提下,我们点击菜单栏上的计划任务,如下图: 第二步:需要建立一个分组,自己起一个名称,参照下图 第三步:添加计划任务,点击下图中的计划任务,然后参照下图: 会出现你所有设置好的采集任务,然后勾选你需要定时执行的任务,可以选多个。右侧是设置执行的时间,如每间隔多长时间执行一次,也可以设置运行的时间段,这里的间隔建议不要设置太短,如只有几分钟,时间太短的话,可能会出现第一次还运行完,又到了第二次运行的时间,可能会出错。 你也可以设置按每天固定的时间点来执行,如上图。设置好后,如下图,只要保持采集器不关闭,网络通畅就可以了。 当然也可以可以针对每个任务设置不同的时候,参照下图,点击要设置的任务,即可设置单独设置相应的时间

火车采集器V9.7数据库转换功能使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7版菜单栏工具功能之数据转换介绍 我们的火车采集器默认是Sqlite数据库,是软件自带无须安装的轻便数据库,如果安装火车采集器后不进行数据库设置,默认的便是这个数据库。 但它可能并不能满足我们所有用户的需求,当我们的任务规则比较多,采集数据量比较大的时候,就会影响软件打开的速度,而且采集到本地的数据也不能很多好的通过数据库软件进行操作。 火车采集器为大家提供了数据库转换功能,目前可以将默认的数据库换成Mysql和Sqlserver数据库,下面为大家介绍如何转换设置。 首先,我们在菜单栏的工具中找到数据转换,点击  默认是Sqlite,你可以选择转换成你需要的数据库,当然前提你得先安装好数据库软件 (特别提醒:在你做数据库转换时,务必要做好数据库备份,最简单的办法就是,直接将整个采集器安装目录 复制一份) 在这里我选择的是Mysql数据库,然后输入数据库的用户名和密码,以及数据库名(事先在数据库中创建一个空的数据表) 设置好后,点开始转换即可。这里要说明的是,上图中,有个转换内容库,这里如果选择√选的话,将对已采的数据进行转换,转换到Mysql数据库中,这个如果不是非常必要的话建议不转换,因为如果你的内容非常多的话,这个转换比较慢。 这里是对数据库链接的测试 这里会有提醒,所以请一定备份数据 这是数据转换过程,结束后即转换成功,退出软件,再次进入,再点数据转换,如果这里显示如下图,即转换成功

火车采集器V9版工具功能选项设置使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9版工具功能选项设置使用教程,带你认识了解火车采集器V9版菜单栏工具功能之选项设置 选项设置分为全局选项,采集设置,配置备份,使用偏好,主要是针对采集器的一些使用习惯和基本参数的设置,可以直接通过下方的图看明白,大家可以按照自己的需求和偏好进行设置。

火车采集器V9.7已采数据批量内容替换功能介绍_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7已采数据批量内容替换功能介绍,数据采集完了发现某个数据处理没设置或者设置的不对,需要重新设置重新采集,但数据量又比较大,重新采集比较耗时。 那我们就可以使用数据替换功能。 首先要在任务中右键选择本地编辑数据,如上图 然后右侧出现上图,点击右下角替换 然后可以选择要替换的标签和区域,第一种是手工输入单条替换,可以使用正则进行替换。参照上图 第二种是批量多条内容替换,意思就是内容中有多个不同的内容需要替换,如A换成B,C换成D,E换成F……那我们可以选择同义词词库,需要对词库进行编辑,点击笔形图标进行设置 如上图,一行一个,前面是要被替换的内容,后面是要替换成的内容,中间必须使用英文逗号分隔 设置好后进行保存,然后点执行,在这里提醒大家如果数据量比较多,这个替换过程有点慢,如果想要快的替换方式,可以使用下面这种方法 在刚才点替换的旁边 有个SQl,点击出现上图,通过SQL语句进行替换,不需要自己写,只要直接点击上图中的 蓝色替换字 就会自动生成SQl语句,然后我们进行修改即可,上图中地区是内容所在标签名,10024是要被替换的内容,福建是替换后的内容,设置好后,点执行即可。

火车采集器V9.7工具功能之同义词替换使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7工具功能之同义词替换使用教程 先说说功能,其实就是自动替换数据中指定的词,比如将采集的A自动换成B,这里说的是同义词替换,其实上可以做任意词替换。 同义词转换是在我们做伪原创时,可以用到,即想与原内容不同,又不想失去意思,所以可以将同义的词进行替换。 另外我们如果在采集的时候,如果内容中有大量想要替换的词,比如采集内容中有大量“百度”这个词,我想换成“谷歌”,那也可以使用这个功能。 火车老司机可能会想到了,那空上与数据处理中的内容替换功能不是一样吗,这个不是多此一举吗,属于重复功能吗? 是的,实现的功能效果上是一样的,但是有区别的,数据处理的替换只能应对少量的内容替换,比如就三五个那是可以的,假如我的内容中有100个甚至 1000个词要转换,我总不能添加100个替换设置吧,那就必须使用这个功能了。 见下图:右侧是名称,左侧要替换的词对应关系。如图中的asdfs,a 意思就是将内容中的asdf替换成a,如果我们有100个词要替换,这里就要设置100行的对应替换关系。 下图是在内容采集设置的数据处理中添加同义词替换功能。 另外,如果说我的内容已经采集完成了,也想做词的批量替换可以实现吗? 当然可以实现! 具体介绍:http://www.youxiuziliao.com/huochetoucaijiqijiaocheng/148.html

火车采集器V9.7工具功能之任务批量处理使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

带你认识了解火车采集器V9版菜单栏工具功能之任务批量处理 火车采集器V9在菜单中有个工具栏,我们的很多用户在实际使用中,可能很少用到,但这里的小功能在需要的时候很实用哦。这里给大家介绍任务批量处理功能 先看下图,其实通过图就可以很明白的知道是干什么的,当我们有大批量的任务规则时,需要批量进行某些操作时就可用到,首页是数据清理,可以批量进行清空网址,删除下载文件,清空已发数据 等操作。能够为我们节省大量的时间。 这个是导入数据,恐怖有很多少不知道这个功能吧? 这个功能是将我们本地电脑中的数据导入某个任务规则中。为什么要导入规则?这个不同的人会有不同的用处,我说个最简单的,比如你本地有1000篇文章在表格中,你想把这些文章通过采集器发布到你的网站,那就要通过这个功能先把数据导入采集器中了。

火车采集器V9.7工具篇之任务批量编辑使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器v9.7工具篇之任务批量编辑使用教程 我们在制作火车采集规则的时候,有时候会遇到很多规则有相似的参数,这个时候一个个编辑会比较麻烦。这个时候就可以用到火车采集器v9.7工具篇之任务批量编辑。 如何使用的方法入下面所示。 菜单工具栏,点击任务批量编辑出现上图,操作很简单,主要说下干什么用的。 我们经常遇到采集的网站需要编辑很多个规则任务,而每个规则任务部分或大部分规则设置又是相同,为避免重复操作,提高工作效率,我们可以通过此功能进行批量操作。我们可以A任务规则中的所有设置或部分设置批量复制到B或B、C、D、E……等N个规则任务中,这样就需要每个规则任务都去操作相同的规则设置,大大提高了效率。 大家在遇到这种大批量任务规则有相同规则设置的时候可以尝试下哦!

100% Secure Checkout

PayPal / MasterCard / Visa