任何问题请联系WX:uu16853

买模板送网站采集器 让你轻松放开双手运营网站!

购买更多有优惠!

火车采集器V9.7工具功能之任务批量处理使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

带你认识了解火车采集器V9版菜单栏工具功能之任务批量处理 火车采集器V9在菜单中有个工具栏,我们的很多用户在实际使用中,可能很少用到,但这里的小功能在需要的时候很实用哦。这里给大家介绍任务批量处理功能 先看下图,其实通过图就可以很明白的知道是干什么的,当我们有大批量的任务规则时,需要批量进行某些操作时就可用到,首页是数据清理,可以批量进行清空网址,删除下载文件,清空已发数据 等操作。能够为我们节省大量的时间。 这个是导入数据,恐怖有很多少不知道这个功能吧? 这个功能是将我们本地电脑中的数据导入某个任务规则中。为什么要导入规则?这个不同的人会有不同的用处,我说个最简单的,比如你本地有1000篇文章在表格中,你想把这些文章通过采集器发布到你的网站,那就要通过这个功能先把数据导入采集器中了。

火车采集器V9.7工具篇之任务批量编辑使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器v9.7工具篇之任务批量编辑使用教程 我们在制作火车采集规则的时候,有时候会遇到很多规则有相似的参数,这个时候一个个编辑会比较麻烦。这个时候就可以用到火车采集器v9.7工具篇之任务批量编辑。 如何使用的方法入下面所示。 菜单工具栏,点击任务批量编辑出现上图,操作很简单,主要说下干什么用的。 我们经常遇到采集的网站需要编辑很多个规则任务,而每个规则任务部分或大部分规则设置又是相同,为避免重复操作,提高工作效率,我们可以通过此功能进行批量操作。我们可以A任务规则中的所有设置或部分设置批量复制到B或B、C、D、E……等N个规则任务中,这样就需要每个规则任务都去操作相同的规则设置,大大提高了效率。 大家在遇到这种大批量任务规则有相同规则设置的时候可以尝试下哦!

火车采集器V9.7内容页和标签循环采集功能使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

给大家分享财富网股票业绩预告信息采集规则。今天的规则相对比较简单,但简单中又有技巧, 比如看到这个图的规则,会不会晕呢,怎么就标点符号和通配符呢?今天的规则主要使用了起始网址页即为内容页和标签循环采集功能,下方案例讲解为大家详细说明。 今天主要讲解 起始网址页即为内容页和标签循环采集功能,其他略过! 如上图,我们需要采集表格中的信息。 底部有分页,总共29页,发现点击分页,网址并无变化,那就这就需要我们使用抓包软件Fiddler(学习抓包)来抓取真实地址,如下图: 通过抓包我们找到了有我们需要的数据的页面地址,我们将网址复制出来,参照下图: 通过网址规则分析到分页的参数变量,一般可以通过抓取多个分页的网址进行对比就知道哪个是分页变量了,找到变量规则后,我就可可以通过网址分页规则进行设置,共29页,如下图: 通过抓包软件,我们看到我们所要采的数据就在抓取的分页中,就并不需要再采集内容页,我们要的内容就在起始网址页中,那么我们就需要使用火车采集器的起始网址就是内容页网址,我们点击“点击设置”,如下图: 点击出现下图,是灰色的,不能进行任何设置,因为我们不需要设置采集内容页网址了,所以这里不操作。 直接进入内容采集规则设置界面,如下图,因为我们需要采的内容是表格内容并且都在一个页面上,所以我们需要使用循环采集,所以设置标签的时候,每个标签都要将循环匹配√选上。(每个标签的内容采集规则这里不多说,大家可以下载规则自行测试学习,其实还是有一定的小技巧的) 网页上的表格数据,一行一条信息,所以我们采集下来也是需要一行一条信息,那在左侧下方的循环设置中我们要进行设置,改为“添加新记录”,这样我们采集的信息就会一行一条,否则所有信息将堆积在一起,只有一条信息。参照下图: 设置好后我们进行测试,出现下图即为设置成功 另外讲下,在采集该页面信息进行循环时,发现第一条信息和其他信息的规则不一样,经过分析,只能循环采集每页的除第一条的其他信息。那这应该怎么办?这个没有更好的方法,页面数据规则太过简单,无法找到一个能够匹配所有信息的规则,解决方法只有一个笨方法,但是也是唯一可以解决此问题的。那就是先循环采集所有信息,然后再设一个规则只针对第一条信息,再采一次最后合并。这里分享的规则不能采集到第一条信息,大家可以按照我的思路去尝试采集第一条信息。

火车采集器V9.7发布至discuz门户发布教程详细介绍_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7发布至discuz门户发布教程详细介绍,这里就为大家讲解如何在线发布到自己的网站~以discuz3.X门户为例 ▼首先我们在内容发布规则里选择Web在线发布,新建一个发布规则。 ▼可以根据自己网站后台的搭建系统来选择模块,火车采集器自带很多常用的发布模块,这里我们选择 DiscuzX_3.x_门户,双击打开进行编辑(用一个已有的来讲解,主要让大家了解发布规则的制作过程) ▼上方已有的参数基本可以不修改,当然如果是自己新建的发布模块,这些都是空的,需要根据自己的网站进行填写。 首先是自动登录配置,需要填写登录的地址后缀,以及用户名密码表单。 (1)登录地址后缀:登录地址就是post地址,登录地址后缀即为post地址中除去域名和后台目录之后的后缀部分。 比如fiddler中数据为 POST http://127.0.0.1:801/dede/dede/login.php 那么地址后缀就是:/dede/login.php (2)来源页面后缀:来源页面即为Referer,来源页面后缀同样为Referer除去域名和后台目录之后的后缀部分。 (3)验证码地址:可在验证码上右击,复制地址查看填写。 (4)登录post数据:可对表单名和表单值进行添加、修改、删除等操作,其中表单的相关数据是可以通过自动抓取登录数据包、粘贴抓包获取的数据、提取post表单登录数据三种方式获取的。 ▼其次是获取网站栏目ID,刷新列表页面和来源页面后缀:把上述“内容发布参数” 中的来源页面后缀的设置拿过来直接使用即可。 这里填写的页面一般都是发布文章的页,可以通过查看发布页面的源代码找到刷新列表部分的源码来获取栏目ID的规则。 (1)分类列表名及ID格式:ID 用[分类ID]替换;栏目名称用 [分类名称]替换;不规则出现的代码用 (*)通配符匹配。 ▼然后是内容发布参数设置,红框中是需要发布的表单配置,这里的表单值的标签名需要和采集内容里的标签名相同。这里设置完后保存,起一个规则名称。 ▼发布模块保存后,回到在线发布管理界面,这里要选择网页编码,根据自己的网站编码来选择。这里登录操作还要填写网站地址,登录方式,小采这里是选择了数据包登录,即填写有发布权限的用户名和密码。填写完毕之后我们点击获取栏目分类进入下一步。 ▼如果配置成功,可以看到上图,总计获取到栏目列表有多少个,然后下方出现可下拉选择的栏目列表,选择你要发布的栏目,然后保存。 ▼在web发布设置列表中勾选这个栏目 ▼回到内容采集规则的页面,我们可以测试采集一条,然后如上图,点击测试发布数据。如果成功会出现下图: 到这里发布规则就设置完成了,在运行任务时勾选上发布,就可以进行采集发布啦!

火车采集器9.7之[参数N]案例详细教程_爬虫软件技术与爬虫软件网页数据采集器门户

[参数]在火车采集器中是一个标记标签,用来匹配某些待提取的信息。这里和(*)区分开来,(*)是通配符号,用来代表某些应被忽略的信息。[参数]出现在内容网址获取和内容标签的正则提取中,如图: 关于[参数]、[参数1]、[参数N]?这三者之间是什么样的存在? 比如:http://www.dianping.com/hefei/food如果hefei和food都是我们需要提取利用的内容,那么在写提取规则的时候我们就把它们标记为参数标签:http://www.dianping.com/[参数]/[参数]而在拼接地址的时候就是对上面提取的参数进行利用,在这里我们提取到的参数已经进行了排序,所以hefei和food就分别为是我们提取到的[参数1]和[参数2]。但在写拼接地址的时候,我们会发现旁边出现的标签是[参数N]而不是[参数1]、[参数2],这是为什么呢? 其实[参数N]的作用是我们点击一次时就自动出现[参数1]、再点击就依次出现[参数2]、[参数3]……方便需要利用多个参数的情况。 如果依次出现的参数序号和拼接目标不同,我们还可自行修改数字调整参数位置,如上动态图片~ 知道怎么用了,但具体用在什么地方呢?下面奉上大众点评中用参数拼接地址的真实操作案例: 进入商家列表页面后我们需要获取商家的地址,点击一个商家看看地址的格式。 回到列表页,查看页面源代码,可以发现商家的地址是不全的,因此我们需要借用源代码中的信息拼接出一个完整的内容页地址。这时源代码中的内容页地址信息就可以借助参数提取出来,不多说,看下图规则。 这里的[参数1]就是点击[参数N]后出来的哟,内容页地址拼接完成后我们来测试一下~ 这样就拼接成功啦~

火车采集器V9.7多页功能详细教程介绍_爬虫软件技术与爬虫软件网页数据采集器门户

我们在采集网页信息过程中经常遇到信息不在同一个页面,那就要使用多页功能,今天在这里以采集安居客小区信息为例讲解火车采集器V9的多页设置。因为主要讲解多页,案例中的其他设置略过! 下面我们来介绍一下火车采集器V9.7多页功能详细教程。 我们要抓取的信息中有小区的房源数量数据,发现在网页源码中并没有此数据。通过抓包软件fiddler抓包分析可以获取到该数据的真实网址,参照下图: 通过网址可以发现一个ID参数“337684”,于是我们可在内容页源码中看能否查找到该ID值 通过搜索我们发现源码中存在这个值,那我们就可以通过这个值 在多页功能中拼接出房源数量数据的网址,参照下图: 首页我们要添加多页,在内容采集规则步骤中左侧下方有个关联多页,我们点击+号进行添加多页 获取多页网址和获取内容页网址原理一样,也是通过源码找出规则。因在内容页中并没有完整的该多页的链接,但可以采到网址中的ID参数,于是我们只需获取到ID即可,然后拼接出多页网址,参照下图: 起一个名称,保存多页,下一步我们就可以通过此页获取房源数量 添加标签,通过拼接的多页网址,分析获取数据规则,注意上图的数据来源,一定要选择关联多页。这样我们就可以通过多页功能获取到隐藏的房源数量信息了,你学会了吗?

火车采集器V9.7采集网址拼接功能之酒店信息采集案例讲解_爬虫软件技术与爬虫软件网页数据采集器门户

今天为大家讲解网址拼接,我们经常在采集的时候,发现源码中并没有完全的网址或完全的网站不好制定规则,那就可以使用网址拼接功能,今天以酒店信息采集案例讲解网址拼接功能。 以北京地区酒店信息为例,入口页面:http://www.zhuna.cn/hotellist/e0101/ 通过页面点击发现这并不是真实的数据列表页,需要通过抓包软件来抓包,找出真实列表网址(抓包之前说过,今天这里不再细说),通过抓包获得真实网址为:http://www.zhuna.cn/?m=search.ge … =%E5%8C%97%E4%BA%AC 网址中的page=1为列表页分页参数,通过分页规则,采集列表网址,如图: 下一步获取内容页网址,通过源码分析,发现源码中并没有网址,但可以看到一个ID值,如图: 通过页面点击内容页发现内容网址为http://www.zhuna.cn/hotel-5396.html 网址中的数字很可能就是这个ID值,将源码中的ID值替换到这个网址中,发现就是酒店详细内容页,这样我们只要采集这个ID值即可。这个获取规则也很简单,以{"id":开头,以 , 结尾,就可以获取到ID值,但光有ID值不行,这个时候我们要拼接出完整的内容网址,那这样拼接http://www.zhuna.cn/hotel-[参数1].html即可,如图: 通过网址测试,可以顺利采集到内容网址 酒店的基本信息在内容页源码中都有,规则也比较简单,在这里就略过,最后来张采集动态图

火车采集器V9.7之标签组合功能详细介绍教程_爬虫软件技术与爬虫软件网页数据采集器门户

抓取网页数据的工具火车采集器V9将标签组合功能放在了数据获取方式选项中,即可以通过标签组合来获取标签数据,下面讲解一下该功能如何使用。学习之前需要注意以下几种情况: 1.标签组合是组合文件下载前的内容 有的朋友发现,a标签中下载了某个文件,原始地址是aaa,下载后或是探测的地址为bbb,那么,如果您在b标签中组合使用a标签,a标签的值是aaa.为何使用这种处理方法,是因为文件下载是在标签组合之后进行的。如何达到标签内容是文件下载完后的结果呢?可以新建一个标签,选“自定义固定格式数据”,将您标签组合的内容放进去。这里的替换会在文件下载后执行。 2.内容页标签循环采集并添加为新记录 如果组合的两个标签都是内容页标签,这两个标签在组合时,会按循环数最大的记录产生新的同样数目的循环记录。如果某个标签的循环数较少,则新产生的标签中该标签的值为空。例如标签a,b组合生成标签c。a的循环数是5,b的循环数是3,则会生成5个c,其中,前3个标签的值分别是a,b一一对应的。最后两个值中,b的值为空。比如我们假设a的值是11、22、33、44、55,而b的值为aa、bb、cc,那么c是由组合的,则产生的c的值为11aa、22bb、33cc、44、55,后面两个b值为空。 3.列表页标签和内容页标签组合 如果两个标签中一个是内容页,一个是列表页,则内容页是会参加第2条中的循环处理,在这个过程中列表页先当作一个字符串处理。合并完成后,程序会再进行数据处理操作。最后,组合标签中的列表页标签内容将被替换成实际的值。组合后的结果中,可以再提取下载。比如内容页a和列表页b组合生成c,其中a的值为11、22、33,b的值为bb,那么,c第一次组合结果是11、22、33,然后进行数据处理:如果b的值是bb,那么最后的结果就是11bb、22bb、33bb。 下面来实际操作下,已有标签的组合操作示例如下: 我们把“标题”和“来源”标签组合成一个新标签“标题+来源”,之间用“___”隔开,我们测试下结果如下图,查看该标签内容可以看到测试结果和预期效果是一样的。 那么生成固定格式数据的组合方式怎么操作呢?看下图: 再测试一下,可以看到测试结果和已有标签组合的结果是一致的。

火车采集器V9.7之文章采集规则编写案例教程_爬虫软件技术与爬虫软件网页数据采集器门户

通过火车采集器官网的faq为例来说明采集器采集的原理和过程。 本例以 http://faq.locoy.com/qc-12.html 演示地址,以火车采集器V9为工具进行示例说明。 (1)新建个采集规则 选择一个分组上右击,选择“新建任务”,如下图: (2)添加起始网址 在这里我们需要采集 5页数据。 分析网址变量规律 第一页地址:http://faq.locoy.com/qc-12.html?p=1 第二页地址:http://faq.locoy.com/qc-12.html?p=2 第三页地址:http://faq.locoy.com/qc-12.html?p=3 由此我们可以推算出p=后的数字就是分页的意思,我们用[地址参数]表示: 所以设置如下: 地址格式:把变化的分页数字用[地址参数]表示。 数字变化:从1开始,即第一页;每次递增1,即每次分页的变化规律数字; 共5项,即一共采集5页。 预览:采集器会按照上面设置的生成一部分网址,让你来判读添加的是否正确。 然后确定即可 (3)[常规模式]获取内容网址 常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。 在这里给大家演示用 自动获取地址链接 +设置区域 的 方式来获取。 查看页面源代码找到文章地址所在的区域: 设置如下: 注:更详细的分析说明可以参考本手册: 操作指南 > 软件操作 > 网址采集规则 > 获取内容网址 点击网址采集测试,看看测试效果 (3)内容采集网址 以 http://faq.locoy.com/q-1184.html 为例讲解标签采集 注:更详细的分析说明可以下载参考官网的用户手册。 操作指南 > 软件操作 > 内容采集规则 > 标签编辑 我们首先查看它的页面源代码,找到我们“标题”所在位置的代码: 分析得出: 开头字符串为: 数据处理——内容替换/排除:需要把- 火车采集器帮助中心 […]

火车采集器V9.7只POST分页采集规则案例详解_爬虫软件技术与爬虫软件网页数据采集器门户

案例网站:http://www.mornsun.cn/html/selection.html 采集内容:如下图 网站分析: 通过点击页面分页,发现网址并无变化,说明这不是真实的数据列表地址,那么就需要通过抓包软件Fiddler来抓包分析了。 (关于fiddler的使用教程:http://faq.locoy.com/search.html?keyword=fiddler) 打开抓包软件,点击分页 通过抓包软件获取到的信息我们可以分析得出,该页需要使用POST功能,才能获取到数据。如图: 图中1处是找到对应的数据存在的网址,不确定的话可以多试,一般做得多了一眼看就知道哪个,可以通过图上2处来确认是不是数据网址,能在2处看到需要的数据就是正确的了。 然后通过图中3位置来查看网址请求类型和cookie。我们可以看到应该网址是POST类型,图中4处就是要Post的参数值。接下来我们需要复制该Post网址:“http://www.mornsun.cn/index.php?c=selection&a=search”到采集器软件起始网址中,如图: 设置POST需要点击高级模式,然后我们添加一级列表,这里还是获取内容页网址规则,内容页的网址规则通过抓包获取,参照上面抓包的图中2位置,可以通过此源代码找出内容网址规则。 接下来是Post设置,上面讲到图中4处是post参数值,现在我们需要将那串参数值复制,也就是“page=2&keywords=&pid=2&Package=&OutputPower=&NoofOutput=&VoutVDC=&VinVDC=&IsolationVDC=” 复制到采集器中,我们需要将其中的分页参数2改为变量[分页],然后设置页码数,这样Post就设置好了,如下图: 当然这只是一个最简单的一个post案例,复杂的会有更多的参数和变量,但是最基本的原理还是这样的,最主要是要学会抓包分析。有时候可能不知道哪个参数是分页数,可以多抓几个页面,将参数复制到记事本进行对比,一般面码的数字变化是很有规律的,通过对比找到规律就知道哪个参数是分页值了。

如何使用火车采集器V9.7采集百度搜索关键词教程_爬虫软件技术与爬虫软件网页数据采集器门户

如何使用火车采集器V9.7采集百度搜索关键词教程,当我们在进行网站优化以及内容更新的时候会发现,大批量更新文章是需要很多关键词。而自己手动统计的关键词是远远不够使用的,因此我们会从其他同类型的网站中获取关键词,这时就要用到网页抓取工具,进行关键词的高效采集,也能大大减少时间和人力成本。 具体如何操作呢?请根据下面的步骤来学习一下。 1:得到50条百度搜索结果 以网页抓取工具火车采集器为例,填写搜索网址的真实跳转url,如需多个搜索则在txt中一行一个批量写好搜索URL,再经过参数修改或正则得到真实url即可。2:填写url 3:设置采集内容_关键词 因为我们需要的只是关键词,所以只采集到文章标题即可,其他内容不需要,因此内容采集规则设置见下图: 4:采集内容选择好之后,就是发布处理的问题。发布的时候有在线发布和本地保存以及导入自定义数据库三种。一般采集关键词会选择保存在本地文件,在其他设置中我们还可以选择边采边发。 5:运行任务,采集完毕。可以看到关键词被采集下来了,如果有需要,还可对采集到的内容进行分词设置。 网页抓取工具采集关键词比手动获取关键词要方便快捷很多,还可以从许多不同的网页获取大家所需要的关键词。

火车采集器V9.7数据同步功能的使用详解教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7数据同步功能的使用详解教程 数据同步功能是将当前采集器中存在的任务保存到云端,以便在需要的时候进行下载和恢复。 数据同步功能默认开启,如果不想使用此功能可以在 :工具——选项——偏好设置 ,中将其关闭。 选项简介: 每个采集器同步数据后都会在云端建立一个属于此采集器的任务库。 开启云端任务同步上传:此选项勾选后开启云端任务同步功能。 云端获取任务同时获取对应的分组信息: 此选项勾选后将云端任务同步到本地时,也会将包含任务的分组同步到本地采集器中。 本机任务库备份任务,名称不同时直接覆盖:关闭了那个自动同步之后,本地又改动了,导致同一个ID的任务,在云端存储的和本地存储的名称不同。 那么同步的时候,勾选的话,就会将云端的覆盖本地。不勾选,下载下来的就是一个新的任务。(注:每个任务都有一个ID号,采集器区分任务是根据ID号来区分的。) 关闭了那个自动同步之后,本地又改动了,导致同一个ID的任务,在云端存储的和本地存储的名称不同。 那么同步的时候,勾选的话,就会将云端的覆盖本地。不勾选,下载下来的就是一个新的任务。 其他任务库的同名任务,直接覆盖本机任务:此选项勾选后同步其他的数据库中的任务导本地时,如果有其他任务库的任务名称和本地任务的名称相同,会将本地的同名任务覆盖。 选项设置设置完成后并不是立即生效,而是在下次启动后生效。同步功能默认自动开启,如不需要,请在设置中关闭。 同步功能说明: 同步功能在每次启动采集器的时候会与云端数据库进行对比更新。打开数据同步界面后可以看到当前采集器同步到云端的任务,以及其它相同用户名登录的采集器同步到云端的任务。 数据列表:显示任务的分组和名称,及相应的选项框。勾选数据列表的选项框可进行清除当前数据的操作。 创建时间:显示任务的创建时间。 同步:显示同步选项框。 如果想清除本采集器在云端的任务,勾选数据列表栏的选项框后,点击清除当前云任务,可进行清除当前任务的操作。删除操作只能对当前采集器同步的任务进行操作,无法对其他采集器同步的任务进行操作。 如果想将云端任务同步到本地,勾选数据列表栏的选项框或勾选同步列表栏的选项框,点击同步所选任务,即可将任务同步到本地采集器。 刷新按钮 可以刷新云端任务。

火车头浏览器打开软件时软件无反应或者提示已停止工作_爬虫软件技术与爬虫软件网页数据采集器门户

火车头浏览器打开软件时,软件无反应或者提示已停止工作,错误异常代码为,错误提示示例如下: 火车头浏览器错误解决方法有两种如下: 一.下载最新版的软件安装在新目录下,使用新版本的软件,即可解决这个问题 二.若是一直想用旧版软件,可尝试下列方法: (1)系统更新设置为  从不检查更新 以win7为例,设置步骤为:右键计算机打开→打开控制面板→点击Windows Update→选择更改设置→选择从不检查更新并保存 (2)卸载已所有安装更新   设置步骤:右键计算机打开→打开控制面板→选择程序和功能→查看已安装更新→找到更新列表中的所有已安装并卸载。然后重启电脑,再重新登录软件。

火车采集器V9.7压缩优化任务数据库功能说明_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7压缩优化任务数据库功能说明,有用户反映原来V8版的压缩优化任务数据库功能在V9版上找不到,其实这个是sqlite本身就支持的一个命令,sqlite在删除数据后文件大小仍然不变,需要执行VACUUM语句后才可以,在V9版上按照如下操作即可: 1.右键清空本地采集数据后,打开data文件夹我们会发现数据库文件大小没有变化 2.右键选择本地编辑数据,点击SQL,输入VACUUM命令后执行 3.此时我们再打开data文件夹就会发现数据库文件变小了

火车采集器V9.7加载CSV模板出错添加了重复的表头的解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7加载CSV模板出错添加了重复的表头的解决方法 出现这个的问题是因为CSV模板没有正确编辑 方法是以记事本方式编辑打开csv模板文件 第一行是字段名 第二行是字段值 多个字段名与字段值中间用逗号间隔 编辑后 点击文件菜单的另存为选择utf-8编码保存,然后修改文件后缀为csv即可。

火车采集器V9.7自动获取二级代理的代理服务功能使用说明_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7自动获取二级代理的代理服务功能使用说明 1.点击开始菜单上的http二级代理服务器进入设置界面 2.选择代理服务,测试用户名和密码都是lewell(目前官方免费提供测试),点击登录。 3.设置好每批获取,定时更换,定量更换,代理匿名度后,开启启用。 4.全部设置完成之后,在二级代理选项中选择启用,可以查看获取到的ip状态。 备注: 1.每批获取,最多支持60个  2.定时更换,到间隔时间自动更换新的一批ip  3.定量更换,平均每个ip使用20次 要重新修改以上值,需要关闭启用。

火车浏览器导出登录后的cookie火车采集器引用无效果的解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车浏览器导出的cookie是所有打开页面的cookie,而火车采集器在调用该cookie时,若有多个相同的key ,则以最上面的key为准,如下图: 则这可能会导致火车采集器调用未登录的key ,导致无法采集登录后的内容。想要解决这种问题,有一下两种方式: 1.登录前,调用Cookie操作,清空火车浏览器中cookie 2.若清空cookie后,还是有相同的key ,则需先导出cookie至文本中 然后使用文件操作读取文本中cookie至list 变量 使用变量清理功能清除list变量中无效的key  然后将list变量中内容覆盖保存至采集器Cookie目录下。

火车采集器V9.7批量内容替换功能使用方法教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7批量内容替换功能使用方法,比如我们想把采集到的时间改成汉字形式,如我们想要将月份替换成汉字,我们就可以使用批量替换功能 在数据处理->高级功能中找到批量替换 注意:这里的顺序一定要按照从大到小的顺序来写,反过来的话那么12月就会被替换为一月二月。

火车浏览器ocr识别出现libtesseract302.dll找不到指定模块解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车浏览器ocr识别出现libtesseract302.dll找不到指定模块解决方法 火车浏览器在点击ocr识别,识别测试出现如下图显示错误 解决方法:检查下浏览器安装目录下是不是有 libtesseract302.dll 这个文件 如果不存在该文件,重新下载浏览器软件到新目录下,拷贝该文件,重启软件即可 如果已经存在该文件,并且重启浏览器软件或者重启电脑都还有这个问题,检查下电脑的VC环境是不是安装完全 所有VC安装包下载:VC_RedistInstaller安装完成即可。

火车采集器V7.6使用随机二级代理服务器设置方法_爬虫软件技术与爬虫软件网页数据采集器门户

在我们采集过程中,如果遇到对方网站限制了你的ip访问,就可以通过二级代理服务器的功能,来实现更换ip。 1, 获取代理ip 首先我们需要获取一些代理ip(官方没有代理ip,这个ip请自行解决),然后按照下图格式:ip地址:端口号,一行一个写到txt文件里面: 上图可以看到格式是“IP:端口”。IP准备好后面会使用到。 2, 代理ip导入采集器 按照下图 然后把第一步准备好的代理IP,导入进去: 点击“浏览”,选择准备好的代理ip文本,如上图。这样就把文本里面的代理ip导入到采集器里面了,看下图: 点击右侧“批量验证”,验证结果如下: 只有状态是“通过”的才是有效,状态是“未通过”是不能用的给删掉。 3, 从网页中导入代理ip 比如http://www.itmop.com/proxy/post/1448.html 我们要把这样页面的代理ip给导进采集器里面,步骤如下图: 继续按照下图做: 上图中有个匹配正则表达式,如果你和我一样是正则门外汉的话,就不要深究这是什么东西了,不要动它就好。然后点击下面的“确定”按钮。 然后会有提示导入多少条的提示,点击确定,就可以看到结果了: 同样需要验证。 4,选项设置 选项设置这里也是必须设置好的: 端口设置:这个数字可以是修改,但是要记住,等会要使用的。 访问地址:上面我们说了要验证代理ip,是怎么验证的呢? 就是通过访问这个“访问地址”来验证的,同样可以修改,可以修改成你要访问的地址,这样对于确定代理ip是否有用更准确。 当访问结果包含一下字符时,验证通过:能正常访问的情况下,返回的源代码的部分。用来做为验证通过的依据。 以上设置好了,点击右下角的“保存&重新启动”,就可以了。 5,规则使用代理 设置如下图: 在规则的第四步“文件保存及部分高级设置”,设置Http请求设置 1. 服务器:填写127.0.0.1,一定要这样写。 2. 端口:上面我们说的端口这里就用到了,这2个部分保持一致。 这样就全部设置好了。

火车采集器V9.7之发布模块时间标签解释教程_爬虫软件技术与爬虫软件网页数据采集器门户

[系统时间戳:时间]  :把时间转换成时间戳 时间格式如:2015-04-04 只能这种格式 不能含有时分秒 —————————————————————————————————————————— [时间转化:时间,yyyy-MM-dd HH:mm:ss]  :把时间戳 转换成标准时间  年月日时分秒 [时间转化:时间,yyyy-MM-dd]  :把时间戳 转换成标准时间  年月日 时间格式:1439362841 —————————————————————————————————————————— [系统时间戳]  调用系统时间戳 —————————————————————————————————————————— [系统时间转化:yyyy-MM-dd]  调用系统标准时间   年月日 [系统时间转化:yyyy-MM-dd HH:mm:ss]  调用系统标准时间  年月日时分秒

火车采集器V9.7批量导入Http二级代理设置教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7批量导入Http二级代理设置教程,在使用Http二级代理的时候,经常会使用到批量导入这个功能,下面讲解一下该功能的用法。 打开Http二级代理,可以看到如下界面 点击下方的批量导入按钮会弹出如下对话框 先准备好一个有IP地址的TXT文件导入 格式为:ip:端口,一行一个 点击批量导入–浏览–选中 代理.txt 文件。这样,代理IP 就导入进来了,如图: 如果需要导入用户名和密码,则需要将提取正则改为(?<ip>((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?))[: :](?<port>\d+),(?<user>\w+),(?<pwd>\w+) 并在TXT文本中加入用户名和密码字段,中间用逗号隔开。 注意:导入用户名和密码仅V9版支持。

如何使用火车采集器V9.7抓取手机APP采集里面的内容信息_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器可以抓取http以及https请求中的内容,因此只要手机APP是这两种请求类型,那么其中的内容理论上就是可以抓取的。下面介绍下怎么抓取手机APP的请求。下面以苹果手机中的京东APP为例: (1)查看fiddler的端口号为多少,例下图: (2)查看本地局域网的固定IP为多少,例下图: (3)在手机中设置代理服务器,将端口号以及IP写入,例下图: 如上图设置好后,就可以将fiddler保持Capturing的状态,然后操作京东的APP,就可以看到其中的请求了,如下图: 然后你就可以在采集器中做规则,测试该http是否可以采集了。

火车采集器V9.7之自动分类功能的使用方法教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7之自动分类功能的使用方法教程 此功能是针对用户需求为:采集内容包含某个字符即将该字段的所有内容都替换为某个固定的内容。 使用场景例如:我们从对方网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。 下面以百度为例介绍下用法: 如上图,我们想要将包含百度的标题 内容更替换为 常用搜索网站,则写成如下格式: 运行结果为: 如上就是自动分类的使用方法。 其中需要注意的是:1.一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,按照从上至下的原则替换。 2.若是所有分类不符合的情况下,你想要将关键词赋予为一个默认值,按下图操作:

火车采集器V9.7翻译插件Google谷歌翻译插件更新(20180515)_爬虫软件技术与爬虫软件网页数据采集器门户

该插件会利用google的在线翻译功能,将各种语言进行翻译。需要注意的是,使用该插件的翻译后采集速度将会受到一些影响。插件会将内容标签中的语言进行翻译。 注意事项 :您的采集器的版本必须是V9系列才可以使用。 使用方法: 1.火车采集器V9.7翻译插件Google谷歌翻译插件更新下载插件 将本文中的插件下载后放在 Plugins 目录下。 2.在编辑任务的文件保存部分C#插件部分启用该插件 3.插件默认是汉译英,如果您是汉译英,直接使用即可。如果您的翻译方向是其它的,则需要进行额外设置。 首先,您需要新建一个标签,名子叫 翻译方向 ,然后给这个标签给一个固定的参数 。参数的形式为 源语言代码>目标语言代码。 如图 zh-CN>fr是汉翻法。 设置完这个参数后,插件将会按您的设置将一种语言翻译成另一个语言。如果需要繁体翻译成中文,方向标签里的内容是 zh-TW>zh-CN,法译德是 fr>de,其它的以此类推。还支持多层翻译,如 zh-CN>en>fr ,可以先翻译成英文,再从英文翻译成法文.层数不限. 具体的各种语言的代码如下: 中文:zh-CN 英语:en 中文(繁体):zh-TW 越南语:vi 阿尔巴尼亚语:sq 阿拉伯语:ar 阿塞拜疆语:az 爱尔兰语:ga 爱沙尼亚语:et 白俄罗斯语:be 保加利亚语:bg 冰岛语:is 波兰语:pl 波斯语:fa 布尔文(南非荷兰语):af 丹麦语:da 德语:de 俄语:ru 法语:fr 菲律宾语:tl 芬兰语:fi 格鲁吉亚语:ka 海地克里奥尔语:ht 韩语:ko 荷兰语:nl 加利西亚语:gl 加泰罗尼亚语:ca 捷克语:cs 克罗地亚语:hr 拉脱维亚语:lv 立陶宛语:lt 罗马尼亚语:ro […]

火车采集器V9.7之时间戳转换为时间的c#语法_爬虫软件技术与爬虫软件网页数据采集器门户

using System; using System.Collections.Generic; using SpiderInterface; class LocoyCode{     /// <summary>     /// 执行方法,不能修改类和方法名称。     /// </summary>     /// <param name="content">标签内容</param>     /// <param name="response">页面响应,包含了Url、原始Html等属性</param>     /// <returns>返回处理后的标签内容</returns>     public string Run(string content,ResponseEntry response){         //在这里编写处理代码         string timeStamp = content; //将内容标签的时间戳赋值给临时字符串变量 […]

火车采集器V9.7读取外部cookie功能的使用方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器8.6版本增加了程序自动更新cookie功能。当使用外部程序(火车浏览器或用户自行开发的工具),自动登录网站后,将cookie保存在 Data\Cookie\任务id.txt文本中,采集器会第一时间检测到文件的变更(实时检测)并将cookie更新到采集器中去。这样就实现了自动的登录功能。其中,包含的cookie格式支持两种 1.键名和值的形式 cna=lznrDKluOzECATymtBo9FKLH; cnaui=51104656; tcm=FGncCmaiWoXc163RlUyUK2NQf26JYkyfxEYy0fwqCQ1od0INYBv+O2+TICdKH+Evxm7b8DcQVwVsrguguNL/C4TEkwzHH/m1oj5H04D57OCcLmmRNjgaL6ffj7hZUW26 2.火车浏览器导出cookie功能导出的文件格式。 火车浏览器网站 http://www.locoyposter.com  

火车采集器V9.7之discuz论坛接口上传附件20个限制解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7之discuz论坛接口上传附件20个限制解决方法 这个是由于网站所在的环境限制的 修改以下参数即可,可以把2M 和 20 改大点。 在php.ini里面有这么两行: ; Maximum allowed size for uploaded files ;允许上传文件的最大体积 upload_max_filesize = 2M ; Maximum number of files that can be uploaded via a single request ;一次请求最多能上传文件个数 max_file_uploads = 20

100% Secure Checkout

PayPal / MasterCard / Visa