任何问题请联系WX:uu16853

买模板送网站采集器 让你轻松放开双手运营网站!

购买更多有优惠!

什么是火车采集器 如何使用火车采集器软件_爬虫软件技术与爬虫软件网页数据采集器门户

  火车数据采集平台是一款通用型数据采集程序框架。它包含了数据采集最常用的计划任务,数据发布,正文识别、OCR图形图像识别,采集入库等模块,可以支持其它采集软件快速稳定在平台上使用。火车采集器平台定义了统一的接口规范并提供了大量的api,用户可以很方便的开发自己的应用并在该平台上运行,可以减少开发上时间和成本。目前平台上有官方自带火车采集器。   1.火车采集器系统需求   操作系统:Win7,WinXP,Win2008,Win2003,Windows 2000等windows内核的操作系统上   硬件配置:CPU主频1.6G以上,内存1G以上,分辨率至少为1024*768,网络带宽1Mbps以上。   必要组件:软件需要安装.NET FrameWork 2.0框架,如程序不能打开,请下载微软的.NET FrameWork 2.0框架并安装。.net framework 2.0下载地址:   32位操作系统:http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe   64位操作系统:http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe2   2.火车采集器程序的安装   将下载后的压缩包直接解压缩到您电脑的任何地方即可完成采集的安装–安装过程不操作注册表和系统文件,不产生任圾文件!   3.火车采集器程序的升级   运行程序目录下AutoUpdate.exe按提示进行升级。   4程序的卸载   直接删除采集整个安装文件夹即可以完成程序的卸载。在卸载前强烈建议您备份Configuration,Extensions,Data和Module文件夹(即用户配置,扩展目录,采集数据和模块)以便下次使用!   采集相关术语   1.火车采集器采集规则   简称规则,V7以前版本采集规则分为站点规则和任务规则,通常是指任务规则。V7版及以后采用无限级分组管理任务规则,所以不再有站点规则的概念。所谓采集规则就是要采集一个网站或某一网站栏目网页需要在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。V7版的任务规则文件后缀名为.ljobx,以前的站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。   2.火车采集器采集任务   采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集里导出的采集规则文件(.ljobx后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljobx文件。   3.火车采集器发布模块   发布模块又称模块、发布规则,分为WEB发布模块和数据库发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:网站/后台中或指定数据库中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集里使用。数据库发布模块文件的后缀名为:.dpm;WEB在线发布模块文件的后缀名为:.wpm。(采集规则和发布模块都可以从采集里导出,也都可以导入到采集中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)   4.火车采集器标签   标签是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定。比如标题,手机号,邮件,作者,内容标签,采集到的信息则在发布模块中就可以通过该标签名对应获取到,格式为[标签:标签名]如[标签:标题],标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,顾名思义,列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息。   注:通常还有一种说法为 html标签,这里的标签是指一些html代码里面的属性标识符,如:   5.火车采集器起始网址   用来获取下级链接地址的入口网址,可以为一条或多条,可以通过添加起始网址向导添加同格式多条网址或导入文本网址。这里的起始网址相当于2010版以前的0级网址的概念。如果没有定义多级网址的获取方法,这些地址即作为内容页网址进行内容采集。   6.火车采集器多级网址   依次根据列表里面的多级网址顺序采集分析地址,多级网址相当于2010版以前的1级,2级,3级到N级的概念。通过依次采集分析到最后一级得到内容页地址。多级网址的获取可以使用自动分析,手工分析及Xpath可视化提取方法采集下级网址,在采集的过程中,可以同时采集列表分页及提取列表页附加参数。   7.Cookie   简单地说,就是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务进行交互的字符串。在浏览中使用时通常还会以文本形式记录到您的IE缓存目录中以便下次在有效期内不用输入用户信息即可继续访问验证权限的网页。   8.User-Agent   这是用来向服务通知您使用的客户端是IE6,IE7,FireFox或是某某抓取蜘蛛,在某些需要登录的网页可能同时验证Cookie和User-Agent所以可能需要您将其设置为与本机浏览同样的格式。   9.分页   比如这篇文章页面:http://ent.qq.com/music/a/20050516/000026.htm它的内容比较长,分成了7页显示出来,而真正的内容需要将7页的内容组合起来。这样的7个子页面就是分页。   10.多页   比如绿盟的这篇页面:http://www.xdowns.com/soft/1/30/2008/Soft_45507.html,我们要获取其下载地址,而下载地址是需要打开一个新页面才能看到,在http://www.xdowns.com/soft/softdown.asp?softid=45507这个页面中,我们称后面这种页面为多页。   同理要获取http://product.it168.com/detail/doc/395075/index.shtml这样一个产品页里面的所有对应的信息,用一条规则搞定,则需要定义比如报价多页:http://product.it168.com/detail/doc/395075/price.shtml,参数多页:http://product.it168.com/detail/doc/395075/detail.shtml,图片多页:http://product.it168.com/detail/doc/395075/pic.shtml等等。V7的无限级多页规则可以在多页里面继续设置多页或桥页采集下级内容,比如该例中的图片多页:http://product.it168.com/detail/doc/395075/pic.shtml里面还分为:外观图片,细节图片,配件图片,要获取到配件图片的所有内容则需要继续定义一个基于图片多页的二级深度的配件图片多页:http://product.it168.com/detail/doc/395075/25/1/pic.shtml。在该多页中定义标签采集到您所需要的信息。   11.正则   是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。 详见百度百科: http://baike.baidu.com/view/94238.htm,比如d+可以匹配到一个或多个数字。在这里收录了一篇正则表达式的30分钟经典教程: http://help.locoy.com/Document/Learn_Regex_For_30_Minutes.htm   火车采集器里面有纯正则,还有一种基于参数匹配的伪正则,在匹配时使用[参数]标签代替您想提取的字符串,在组合时使用对应序号的[参数1],[参数2],[参数N]来组合出需要的字符串。详见下面的[参数]术语项。   [参数]   用来匹配某项准备提取信息的标记标签,如想要在以下代码中提取组合出某种格式。以从代码"mClk(this,'108484','134217', '168475','1');"中提取组合出新的地址格式为例。   "mClk(this,'[参数]','[参数]', '[参数]','1'); […]

如何使用火车采集器制作zencart数据包来进行批量导入商品_爬虫软件技术与爬虫软件网页数据采集器门户

  如何利用火车采集器采集商品然后批量上传商品到zencart网站里面呢。如果您网站只有很少的商品这个时候没有。您可以手动添加。但是如果有成千上万个商品的时候这个时候手动就变得十分缓慢和低效。那有没有什么办法可以让我们的工作变得更加有效率。     我们可以领用火车采集器来采集和合成我们需要的信息。如何利用火车采集器来进行采集商品信息导入到我们的网站后台呢。     首先第一步,您要找到一个合适的目标站点,然后对目标站进行分析,然后就是利用火车头进行编写规则,进行采集。     最后就是利用zencart后台的一个插件名字叫Tools-Easy Populate这个插件进行导入商品。     但是我们在导入商品的时候有时候会发生很多意向不到的问题,例如分类莫名其妙的多了很多乱的,我们的里面的编码乱了,还有就是我们导入不了数据。     有没有办法解决这些问题呢。当然有哦,解决办法如下。 首先是检查您火车采集器采集出来的数据是否数据有问题,例如有乱码,有换行,有逗号,有特殊符号等等不安定因素的代码。如果检查了之后没有那我们进行下一步的检查。文件大小的检查。     当您制作一个zencart数据包表格很大的时候这个时候您需要对表格进行一个分割,利用的软件是emeditor这款软件。     然后就是乱码的问题,就是您需要对您的数据包进行编码按照您网站后台,一般的国外网站使用的是utf8编码,国内的网站使用的是gbk编码这个需要按照您的网站的具体情况进行操作。     最后就是导入,后台导入如果发生无法导入有时候不是您的zencart数据包制作的不正确,是英文文件大了,这个时候一次导入1000个商品以内进行测试是没有问题的。     当然还要考虑您网站的服务器承载能力,如果服务器速度比较慢,这个数量还需要进一步的降低。才能达到导入商品的目标。     下面我写了一个大概制作zencart数据包出错问题的时候解决方案。如下所示。     zencart商品数据包制作流程     1、用excel表格进行整理数据表     2、用emeditor进行另存表格为utf8格式     3、用emeditor进行拆分csv表格     4、进行导入表格到网站。  

火车头采集器的DedeCMS5.7文章免登陆发布接口_爬虫软件技术与爬虫软件网页数据采集器门户

火车头采集器DedeCMS5.6免登陆文章发布接口使用说明 一、火车头采集器DedeCMS5.6免登陆文章发布接口功能特性 1、免登陆,用户可以设置验证密码来防止未授权的访问. 2、多用户随机发布文章. 3、可以达到和手工发布文章完全一样的效果,包括是否生成静态,去掉外链,下载远程图片等功能. 二、火车头采集器DedeCMS5.6免登陆文章发布接口使用教程 1、文字教程 1.1、选择您网站对应的接口文件.如您网站是gbk编码,请选择 jiekou_gbk.php. 1.2、打开接口文件,修改验证密码,然后保存. 1.3、修改接口文件名并上传至网站的管理目录.如默认的dede目录. 1.4、修改发布模块 DedeCMS 5.6 免登陆接口文章发布模块.cwr ,将发布模块里的发布文件地址后缀及刷新列表文件地址后缀中的文件名修改为您刚才修改的接口文件名. 1.5、设置发布配置,采集并开始发布. 三、火车头采集器DedeCMS5.6免登陆文章发布接口注意事项 1、该接口仅适用于发布文章到DEDECMS频道内容模型为普通文章的栏目; 2、该接口基于DedeCMS 5.6 GBK版制作,适用于dedecms5.6 GBK/utf-8/BIG5等版本,请在使用时接口选择不同的版本. 3、分页代码 4. 默认接口以id为1的管理员发文章,如果要修改,请修改插件中的userID的值为新的管理员的id $cuserLogin = new userLogin(); $cuserLogin->userID = 1; 四.火车头采集器DedeCMS5.6免登陆文章发布接口参数说明 1、必选参数 title       标题 body        内容 typeid       主栏目ID,必填,可在后台网站栏目管理处查看该id username 用户名,必须使用网站上已存在的用户名,默认是随机用户名,用户需要在模块中设置 pw 验证密码.在刷新列表和post发布时使用,需要模块和接口中的验证密码一致. 2、可选参数 ishtml=1      是否生成HTML,1为是,0为否; remote=1     是否下载远程图片和资源,1为是,0为否 dellink=0 是否删除非站内链接,1为是,0或空为否; shorttitle    简略标题 […]

火车头采集器如何把浏览器里面的cookie到火车头采集器里面_爬虫软件技术与爬虫软件网页数据采集器门户

有的时候 我们发现在浏览器里能看到的内容, 或者某个浏览器能看到 比如火狐能看到但是ie看不到 再或者 要把浏览器的语言设置为英文才可以看到 内容, 我们采集器是默认调用本地ie的 遇到以上的情况我们如果修改采集器的默认浏览器信息呢 下面做下说明: 这里用到抓包工具 抓到浏览器的信息 参考教程http://www.youxiuziliao.com/huochetoucaijiqijiaocheng/20.html 这里 假设你已经成功获取到浏览器信息了 这里重点说明下 如何把浏览器信息填写到采集器里面 第一步:如图,在第二步里面     第二步 填写浏览器信息     填写好后 点击右下角的保存按钮 就可以了 第三步 上面看到没有填写cookie的地方是吧 cookie是在这里填写的如图 在第一步 设置    

火车头采集器教程之如何通过fiddler获取cookie简单教程_爬虫软件技术与爬虫软件网页数据采集器门户

有的网站要登录才能采集 就是要采集器获取到登录后网站的cookie 才能采集 或者 是写发布模块要用到抓包 获取post的数据 有的时候采集内置的浏览器获取的信息可能不行 那就可以用抓包软件 获取这些信息 这里使用fiddler这个抓包工具说明下如何抓包 fiddler工具下载地址:https://pc.qq.com/detail/10/detail_3330.html 1,下载并安装好,启动fiddler工具 界面如下:     2,我们看到很多信息,要找到我们的网站很难 我们可以清空已经抓到的信息 办法是在右侧随便选中一个网址电脑键盘“CTER+X”是清空的快捷键如图:     清空后的结果:     3,然后就不要在用浏览器刷新别的网站了 ,现在只要刷新我们要获取cookie的网站 ,刷新后我们看下fiddler工具得到什么 如下图:哦 这里一定要选择“raw”这个选项,这个图忘记注明了 第4步的注明了具体看下面的图吧     4,就可以获取到cookie并把cookie user-engent 复制到采集器里面了    

火车头采集器FTP设置 图片下载上传的路径的设置_爬虫软件技术与爬虫软件网页数据采集器门户

火车头采集器FTP设置 图片下载上传的路径的设置 1、火车头采集器标签下载处 不做任何设置 下载如下     而我们正常手工发布一条数据的显示图片路径 例如是 http://www.xxx.com/Upload/201211/12/2.jpg http://www.xxx.com是跟地址 Upload常量路径 201211是年月 12是日 2.jpg是文件名 那么我们就需要这样写标签路径 (1) 把 /Upload/201211/12/ 放到 文件保存目录 里 (2) 201211 和 12 这2个数字替换下     (3) 在除了日期以外的 绿色 字符 前加个 \ 进行转义下     最终结果。 2、火车头采集器用FTP 软件 登陆显示的路径 例如是 /www/Upload/201211/12/ 那么 3、火车头采集器FTP文件上传根目录 这里写成这样就OK 了     不要重复的把/Upload/201211/12/ 写上,因为标签设置那里 我们已经定义了路径,软件会自动创建 并识别要发布到哪里,所以 亲们,不要写重复了哦。 […]

火车头采集器文件图片下载路径设置简易说明_爬虫软件技术与爬虫软件网页数据采集器门户

一,火车头采集器在任务规则第四步,设置好文件(图片)需要保存的地方!     二,火车头采集器设置好文件(图片)的路径,这里的文件路径,加上前面的文件地址前缀,组合成完整的路径,其中需要注意的是,绿色字体表示系统时间字母,d表示天,y表示年,m表示月等。如果不需要年月日的信息,用\转一下就可以了     三,火车头采集器勾选下载图片,或者探测文件并下载,就可以得到下载的后的图片路径了    

火车采集器采集淘宝天猫商品采集多页获取宝贝详细教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器以淘宝和天猫多页采集为例 淘宝,例如 http://item.taobao.com/item.htm?id=16598015559 需要采集此页的宝贝详细 火车采集器经过抓包等一系列分析 得到 详细页真实地址 是 http://dsc.taobaocdn.com/i5/160/ … bk%3Bt%5E1352562053 查看网页源代码 可以发现 在这里 此时我们需要用到 多页匹配到 这个详细页真实地址,然后根据这个真实地址 采集就可以了 1、 点击   2、 命名为宝贝详情,用第二种方式,正则参数匹配 得到这个真实网址。 3、 你也可以在这里测试下 得到的网址对不对。 4、 正确的话 就保存 5、 然后标签里 调用多页 (1) 这里选择刚才保存的那个多页 (2) 根据多页地址,也就是宝贝详情的真实地址,设置前台截取 (3) 保存即可。 6、 测试结果如下   ++++++++++++++++++++++++++++++++++++++++++++++ 天猫,例如 http://detail.tmall.com/item.htm?id=19828008229 火车采集器多页地址 http://dsc.taobaocdn.com/i2/191/ … bk%3Bt%5E1352697004 源代码里 剩下的步骤 可以尝试 自己写。。。 一样的道理。。。

火车采集器如何使用fiddler获取post分页_爬虫软件技术与爬虫软件网页数据采集器门户

大家在采集列表分页的时候会遇到,点击下面的分页页面内容是改变了 ,但是浏览器地址却没有改变 , 是吧 好奇怪是吧,是的,好奇怪, 这个种情况分页是post的 方式,今天我们来说下这个种情况 该如何获取分页 火车采集器如何使用fiddler获取post分页用这个网址来做例子http://www.yidianda.com/category/two/1-7.html 首先你要选项下用fiddler抓包 教程这里 好好看看 一定要会用 要不然 下面就没有办法做了 https://www.youxiuziliao.com/huochetoucaijiqijiaocheng/20.html 这个是简单的教程 只要帖子里说的会用 就可以了 如果你要学习具体的 可以在论坛搜索这方面的教程 这里自行解决 这里假设你已经掌握了火车采集器fiddler的使用了 我们开启fiddler然后点击下面的分页看下fiddler都抓到了什么 我们点击第三页 和第5页 抓包 看看分别获取什么 说明如上图 这样比较不好比较我们把结果保存的文本中来比较就很方便了 用按钮“View in Notepad” 把结果保存到文本中来比较 按照 上图的说明我们找到ec_p的值就是分页,这里大家明白了吧 ec_crd=32&ec_p=5&id=1&pid=7&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice= 这些是提交的值 那采集器里如何设置呢 如下图 我们看到除了ec_p还有比的参数如ec_crd这些 那这些是什么呢 我们去页面源代码里找下我们以这个参数为例ec_crd 别的一样处理 这个源代码里的情况 我们最终要获取他的值也就是"32" 在采集如何获取呢 火车采集器里获取 在采集器里像这样的参数叫做post随机值 就是这样了我把规则也上传你们如果不清楚可以下载规则对照操作

火车头采集器无极限多页采集教程说明_爬虫软件技术与爬虫软件网页数据采集器门户

火车头采集器采集总是会遇到要使用多页的时候,一般只要一级多页,偶尔多页下面还有多页,采集器现在能处理无限极多页, 并且能够采集多页里面的分页。 如上图在规则第二步:采集内容规则 点击“切换到无限级多页规则编辑模式” 如下图: 分别点击上面的按钮可以设置分页,建立多页,高级里面是填写浏览器的一些信息,左下面,可以对网页编码进行设定。 在默认页建立一级多页的操作如下图: 多级设置好了,点击测试如果获取的多页是正确的,点击保存,在多页列表就会显示,然后选中多页,点击“编辑多页规则”就跳转到这个多页标签 设置界面,同样在这个界面可以再建立多页,如下图: 从标题上面可以看到这个是一级多页的编辑界面,和之前的默认页界面是一样的,使用方法也一样。建立标签,建立分页,已经高级设置,网页编码的选择。 这个就当是从默认页建立一级多页操作是一样的。这样无限设置下去,就是可以实现无限极多页了。这个看需要,一般一级多页就可以了,但是只要在这模式下 才可以设置多页里面的分页,和多页的编码之类的。

火车采集器如何使用post上传文件图片的图片教程_爬虫软件技术与爬虫软件网页数据采集器门户

1、火车采集器如何使用post上传文件图片,我们以destoon产品图片上传为例 2、选择一张本地图片上传,并且用抓包工具抓取到post数据 3、利用fiddler软件抓取的post数据 4、把post数据复制到火车采集器的发布模块里 5、点提取 6、提取后自动在这里提取到图片信息 7、对文件上传设置进行修改编辑 8、注意标签名的格式 9、表单名的编辑 这里注意的是表单名里如果有递增数字就像如图这样替换相应的格式,如果没有递增数字,那就不需要更改 最后保存一下,那么如果建立采集规则 设置“ 图片”这个标签 ,采集下载到本地的图片自动会随这个模块里的post数据一起发布上传到网站上的,不需要另外用ftp传图片

火车头采集器教程之列表页标签的设置截图教程_爬虫软件技术与爬虫软件网页数据采集器门户

列表页标签的建立: 1、先添加火车头采集器起始网址 2、点添加设置网址规则 3、选择手动填写链接地址规则 4、查看原网页列表页页面的源代码 5、查找要采集的内容页链接地址区域 6、选择其中一条内容页网址的区域代码,复制到采集器列表页的手动填写链接地址规则 的脚本规则表单里 7、复制进火车头采集器后把相应的位置用[参数]或者来替换 8、[参数1]和[参数]对应,实际链接里的值就是要采集的内容页地址,后面是标题和内容两个列表页标签,这里定义的默认循环匹配到其他的网址链接和相应内容的哦 9、测试网址采集,效果是这样,对于标签里的不要的内容可以在采集规则第二步标签编辑里排除掉

火车采集器如何设置自动采集发布计划任务定时功能设置_爬虫软件技术与爬虫软件网页数据采集器门户

1.首先打开火车采集器的自动运行设置工具!在采集器的菜单栏>>高级>>任务计划管理器 2.添加一个计划任务分组 3.添加需要自动运行的任务规则。 4.设置好运行的时间,保存设置就可以了 v7版本的计划任务基于cron表达式。因此,某些设置可能会无法直接达到,如每间隔120分钟无法在分钟里设置,可以设置成每间隔两小时。不能设置每间隔25个小时,可以设置每间隔一天。等等。下次更新中,计划任务将增加最近的几次运行时间,方便用户查看。以下附件就是基于此的小工具。

火车采集器教程之同义词替换添加和使用的方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器教程之同义词替换添加和使用的方法首先编辑同义词替换规则 高级 ==== 同义词管理 界面如图 然后是设置火车采集器的同义词替换设置如下: 替换规律:替换结果是:谢谢会被随机替换成后面的感谢,感激 以此类推 第二步是使用近义词替换:在编辑规则里使用 分享上2万同义词词库给大家参考。 火车采集器同义词–2万同义词词库.zip  

火车采集器V7版本二级随机代理的使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

1.火车采集器V7版本二级随机代理的使用教程,先打开二级随机代理工具,添加好代理的IP地址,然后验证一下是否可用 2.打开火车采集器,设置好端口号(不能与其他端口号冲突),然后保存。(注意不要退出代理工具,否则不可用) 3.在任务规则里设置需要代理。代理的IP填写本地的回路地址127.0.0.1.端口填写第二步设置的端口号即可 4.然后保存任务规则,运行任务就可以了,打开代理工具可以看到代理日志

火车采集器如何将图片转换为号码OCR图像识别配置管理工具_爬虫软件技术与爬虫软件网页数据采集器门户

1、以制作赶集网的图片手机号码 转换文字 为例 手机号码图片网址 http://bj.ganji.com/tel/52650234566157315535536b513f006051650f3e5231_4.png 2、打开火车采集器ocr识别工具 3、 OCR图像识别配置 保存配置后 会生成一个 .ocr 识别文件。 4、标签里调用这个 .ocr识别文件 OCR识别程序是一个通用的图片文字识别程序,可以对一些简单的字母或是数字的图片进行识别 OCR图像识别预处理: 通过预处理可以去除一些干扰,来提高识别率。 1、亮度/对比度 用以调节图像的亮度和颜色的对比度 2、OCR图像识别灰度 效果图: 相当于彩色变黑白的效果 3、OCR图像识别边框 通过定义边框相对于图像上下左右的距离裁剪图像 4、OCR图像识别去除噪点 通过设置相邻点个数,来去除孤立的点 5、OCR图像识别边缘扫描去色 通过设置边缘的宽度,程序将会收集在该区域内的所有颜色。然后扫描整个图像。如果像素点的颜色和之前收集的颜色差在[色差异异]的范围内,则将该点的颜色置白。 6、OCR图像识别二值化 可通过调节阀值来讲图像二值化,将阀值两边的颜色变成黑白两种颜色。 7、OCR图像识别底色 将图像的颜色调换相反的颜色 8、OCR图像识别删除替换颜色 通过设置颜色区间。扫描图像删除所有区间内的颜色。可以将原来的颜色替换成另一种颜色。 字符过滤 可通过设置白名单和黑名单字符集来提高识别率。

火车采集器保存为本地word、excel、html、txt文件方法及文件模板_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器如何将采集到的数据发布到本地的文件 TXT 或者CSV 等格式乱码 解决办法: 模版文件,用txt格式打开,然后 文件—另存为,选择ansi编码 然后发布设置那里 选择GBK 编码,或者 文件—另存为,选择utf-8编码 然后发布设置那里 选择UTF-8 发布即可 1、 我们以软件自带的火车采集器采集规则 搜狐新闻 为例子 2、 双击火车采集器采集规则,打开 搜狐新闻 这个规则 第三步:发布内容设置勾选 “方式二”的启用保存文件格式(自己可根据需要来选择) 3、 保存位置,这里就不做说明了,想保存到哪里就保存到哪里你的地盘你自个做主~ 4、 文件模版,简单的说就是你保存到文件的具体模版样式。 以 “搜狐新闻”为例做txt文件模版 有5个标签 所以txt模版对应写上就可以了 模版会自动提取相应的标签内容。 Html 模版也是一样的 csv模版 Word模版亦是如此 5、 火车采集器文件名格式 点击这个按钮,可出现一个选择列表,这里可以任意选择匹配,给文件命名。 6、 火采集器文件编码 有utf-8和 gb2312 两种。 发布后 如果显示是乱码 ,就可能是你的编码没设置正确,换一种 应该就可以了。 嗯 就这些了,写的非常的直白,应该都可以看懂~~

火车采集器发布模块如何设置ubb设置发布图片教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器发布模块如何设置ubb设置发布图片教程 ubb发布隐藏太深了,令很多位用户困解,本人也是找了半天。 今天写了点图文教程与大家分享~ 共同学习 1、 打开火车采集器发布模块配置 2、 以火车采集器里自带的dz2.0论坛发布模块为例 3、 我们要对 [标签:内容] 这个参数ubb转换设置如下: 4、 保存后出现黄色框的设置也就是[标签:内容]值可以用引用值 {0} 表示。也就是 黄色框内值替换成{0} 然后保存模块即可。 以上就是火车采集器发布模块如何设置ubb设置发布图片教程,希望可以帮助到有需要的朋友。

火车采集器php插件编写视频教程下载_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器的PHP插件和2010的插件是一样的。还是只处理列表页,内容页,多页的网页源代码,保存时的标签。 火车采集器php插件编写视频教程中用一个简单的例子对所有可用到插件的地方进行了演示。 在压缩包中包含了所有教程中使用到的文件。需要注意的一点是,用户使用的采集器版本需要是3.27及以后的版本。如果您的版本低于这个时间,请下载最新手动更新包更新。.注意,请先更新,再导入规则进行测试。 附件下载: PHP插件的使用.7z 4.21MB 火车采集器分类和分类id新思路20180814   对数据里面的信息进行设置。   <?php header("Content-type: text/html; charset=gb2312");  $server = 'localhost'; $user =   'aaabbb'; $pass = 'aaabbb12345'; $dbname = 'aaabbb';   $conn = mysql_connect($server,$user,$pass); mysql_select_db($dbname);  mysql_query("set names 'gb2312'");   $result = mysql_query("select * from `jieqi_article_article` where articlename='".iconv('utf-8','gb2312',$_GET['title'])."'");  $row = mysql_fetch_array($result);   if(!$row){ echo 0; }else{ echo $row['articleid']; }   […]

火车采集器采集百度搜索采集关于标签循环匹配及标签在分页中_爬虫软件技术与爬虫软件网页数据采集器门户

有很多用户不知道火车采集器标签循环匹配及标签在分页中匹配这两个功能的使用,下面就以百度搜索列表采集为例,采集地址http://www.baidu.com/s?wd=%E9%87 … =32&inputT=3893,直接将这个列表页地址作为实际内容页采集, 查看源文件,得到每条记录标题所在的html代码格式是所以在采集标题时规则设置如下 打开火车采集器勾选截图中的该标签在循环中匹配,这样就可以循环采集到每条记录的标签,采集内容标签规则设置如下,一样需要设置循环匹配, 这个列表的分页需要在第二步分页设置中截取到分页连接地址, 火车采集器分页规则设置好后,勾选每个标签里的该标签在分页中匹配选项, 如果需要将采集的数据一条条保存,需要选择添加新纪录方式, 最后测试效果如下: 如果需要获取内容页地址或者内容地址中部分参数这就需要使用从网址中采集功能,然后使用正则采集,

火车采集器如何让文章里面的图片下载到本地电脑_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器如何让文章里面的图片下载到本地电脑,现在我给大家说一下怎么下载图片。 比如我们要下载这篇文章的图片http://www.tourtx.cn/jingdian/sichuan/2009/0910/21770.html,首先采集到这篇文章的内容, 采集完内容之后我们开始处理图片的下载。 你如果直接点击下载图片肯定是不行的,因为火车采集器下载图片的格式必须是标准的这种格式,其中参数表示完整的图片地址。 一般文章里面的图片都不是这种标准的格式,而且源代码里面的图片地址也不一定是完整的,比如上面这个例子,源代码里面图片的格式这样的,所以我们要把这种不标准的格式替换成火车采集器标准的图片格式,并且把源代码里面的图片地址补完整。 经过这个替换之后原来的图片的img格式就替换为采集器可以识别的标准格式了。 如果文章内容里面只有图片的部分地址,没有img格式,处理方法是一样的,比如上面的文章的图片地址可以从两个地址获取到,我们也可以从这个链接这里获取到,也可以这样内容替换,将这个替换为替换为,不管怎么处理。最终采集的时候是标准的img格式就可以了。

火车采集器如何设置每次任务采集数,网址是否重复等小功能的_爬虫软件技术与爬虫软件网页数据采集器门户

1、火车采集器是否检查网址重复,网址重复多少条 停止采集是在第一步设置的如下图 勾选 检查网址重复,采集器就会采集的时候判读下这个网址是否已经采集过了,默认已经采集过的采集器不会再次采集 下面有个“网址连续重复多少条后停止采集网址” 这个顾名思义 大家汉语还是能看懂吧 这里就不解释了 2、火车采集器最大采集分页数,每次任务最大采集数,提取标签忽略大小写 是在规则第二步,采集内容规则 那里设置的 如下图 3、火车采集器对不符合标签必须包含和不得包含的记录,是删除 还是标记为未采集 设置在第四步“文件保存及部分高级设置” 如下图 4、火车采集器发布内容间隔时间,采集内容时间间隔时间 设置在第四步“文件保存及部分高级设置” 如下图 这里说明下 这里的1000等于1秒 线程个数是指同一时间采集信息的条数 5、火车采集器下载地址保存为文件 有的时候采集到的图片呀 文件呀 先不要下载而是保存起来放到迅雷里下载 这里就可以有个选项,把这些文件下载地址保存到一个文件里,在采集器里面是不会下载的,设置如下: 这个生成的“任务id.htm” 保存到,文件下载设置=》所有文件保存文件夹 这里你设置的文件夹中, 找到这个文件后用浏览器打开这个文件 就可以添加到迅雷里下载了。 6、火车采集器如何设置内容过滤 点击内容过滤四个字 设置采集的结果不得包含什么词或者必须包含什么词 对数据不满足这里要求的处理参考上面第三点说明 7、火车采集器发布结束后对数据的处理

火车采集器标签组合的使用方法截图教程_爬虫软件技术与爬虫软件网页数据采集器门户

如何把火车采集器2个标签采集的内容组合在一起改怎么做呢? 这里可以使用火车采集器的标签组合,如下图: 我们把标题和下载地址标签组合成一个新标签,之间用“$$$$”隔开,我们测试下结果如下图: 那么标签还有一种组合方式看下图: 这种方式测试的结果是怎么样的呢,应该是和上面的情况是一样的吧 ,谁知道呢,我们测试下看看吧 哎呦好神奇呀 一样呀 原来组合有2种方式呀 是吧 关于标签组合功能的使用说明 火车采集器v7版本增加了一个标签组合的功能,许多朋友在使用中发现组合的结果和自己想要的结果不一致,下面我来说明一下该功能的使用。 1.标签组合组合的是文件下载前的内容 有的朋友发现,a标签中下载了某个文件,原始地址是aaa,下载后或是探测的地址为bbb,那么,如果您在b标签中组合使用a标签,a标签的值是aaa.为何使用这种处理方法,是因为文件下载是在标签组合之后进行的。如何达到标签内容是文件下载完后的结果呢?可以新建一个标签,选“自定义固定格式数据”,将您标签组合的内容放进去。这里的替换会在文件下载后执行。 2.火车采集器内容页标签循环采集并添加为新记录 如果组合的两个标签都是内容页标签,这两个标签在组合时,会按循环数最大的记录产生新的同样数目的循环记录。如果某个标签的循环数较少,则新产生的标签中该标签的值为空。例如标签a,b组合生成标签c。a的循环数是5,b的循环数是3,则会生成5个c,其中,前3个标签的值分别是a,b一一对应的。最后两个值中,b的值为空。假设a的值是11,22,33,44,55,b的值为aa,bb,cc.c是由组合, 则产生的c的值为11aa,22bb,33cc,44,55. 3.火车采集器列表页标签和内容页标签组合 如果两个标签中一个是内容页,一个是列表页,则内容页是会参加第2条中的循环处理,在这个过程中列表页当作一个字符串处理。合并完成后,程序会再进行数据处理操作。最后,组合标签中的列表页标签内容将被替换成实际的值。组合后的结果中,可以再提取下载。比如内容页a和列表页b组合生成c,其中a的值为11,22,22,b的值为bb,那么,c第一次组合结果是 11,22,33,然后进行数据处理。如果b的值是bb,那么最后的结果就可能是11bb,22bb,33bb. 有的朋友可能会说,干嘛将这个功能搞这么复杂的。其实,这个功能主要是为第一条的功能使用的,其它的组合方式可能会产生和原想法不一样的结果。建议大家不要滥用这个功能,不要将它想像成万能的。

火车采集器里面的字符编码解码功能介绍使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

我们在使用火车采集器采集的结果被转义了,那么如何获得我们要的结果呢? 比如下图采集的结果中文都被转义成特殊的字符了 这样我们就可以使用采集器里面的 编码/解码 功能了 如下图2个步骤找到次功能, 第一步: 火车采集器里面的字符编码解码功能介绍使用教程,界面如下图:  

火车采集器如何将同一张图片在不同的标签中多次下载_爬虫软件技术与爬虫软件网页数据采集器门户

在火车采集器v7版本中,一条记录中的同一个图片只能下载一次。如果想在不同的标签中,将同一张图片下载多次怎么办呢?这个是有办法的。 程序是按网址是否相同来判断图片的。这样,只要给网址加一个?参数,或是给动态网址加&符号,程序就会认为是两个不同的下载地址,就会下载多次的。 至于如果添加可以使用替换功能 比如像下图设置 火车采集器无论你用那种方式 只要 在地址后面加上?或者&。

火车采集器如何采集登录后才能看到的内容_爬虫软件技术与爬虫软件网页数据采集器门户

大家在使用火车采集器采集东西的时候遇到个有些是要查看权限的,就是那种网站 你必须登录才能看到内容,常见的有论坛采集呀, 查看招聘信息里的电话号码等等~这个种情况大家应该不会陌生吧 。 现在就这个问题我们来说下,在采集器里如何实现登录功能。 火车采集器只要登录这个网站那么隐藏的信息就可以看到了 如何在火车采集器面登录网站?? 第一步,找到登录的界面 第二步,按照下图的说明登录你要采集的网站 通过上面2步,已经让采集器成功登录网站了,那么效果是什么样子的呢如下图 fiddle获取cookie的简单说明:http://www.youxiuziliao.com/huochetoucaijiqijiaocheng/20.html

火车采集器V9采集信息速度慢可能是使用了代理_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9采集信息速度慢可能是使用了代理 今天只做一个规则的时候发现测试采集的时候速度比正常的慢很多。就开始检查原因。 最终找到的原因是,火车采集器里面的代理勾选了使用浏览器代理。修改成不用代理后恢复正常。 截图如下所示,希望可以帮助困扰的朋友解决问题。

火车采集器添加和水印去水印功能截图教程说明_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器可以给下载的图片添加水印 水印可以是文字的 也可以是图片的 这个功能比较是旗舰版以上的软件才能使用此功能如旗舰版授权版 旗舰版加密狗版 和企业版 1, 找到添加水印功能设置地方如下图 编辑火车采集器规则=====》文件保存及部分高级设置 有下角 就是添加水印功能 2,火车采集器设置水印 点击“添加”按钮,就会弹出下图的界面 左侧是放了一张测试用图片,用来看效果的,右侧是水印的设置 3,文字水印 如果你只是想给图片添加文字水印,就点击“特效”按钮,来设置文字的位置 字体 等等之类的 你可以设置下看下效果 4,图片水印 如果你是想要选择一个图片做为水印就按照上面的图做,点击“浏览”按钮 选择图片 选择后 可以选择位置透明度 ,自己试试 看下左侧的效果 5,水印选项 可以对需要添加水印的图片进行限制 上面说的很明白了 不做多说 6,保存选项 对添加水印的图片按照一定的设置比例压缩,根据自己的需求设置 7,如果图片去水印那就是用个大的水印盖住原来的水印。

火车采集器V9智联招聘信息采集规则制作截图教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9智联招聘信息采集规则制作截图教程案例讲解 第一步:设置火车采集器起始网址 打开网址:http://sou.zhaopin.com/ 同时这也是火车采集器的入口网址,将此网址输入在火车采集器的起始网址中 打开网站我们可以看到,这上面都是招聘信息的职位类别,我们要采集到这些类别的链接,我们查看源码,如下图: 第二步:获取类别链接及类别名称 这里我们除了将类别网址链接获取到,同时将类别名称获取到,所以这里使用了列表页标签功能 通过源码找到获取链接的规则如下: onclick="javascript(*)href="[参数]"(*)_blank"></a> 参照上图进行设置,这样类别链接获取就设置好了,然后我们点开任意类别页面,进入招聘信息列表页,如下图: 第三步:内容页网址获取设置 我们要获取列表页上的招聘信息网址,也就是内容页网址,同样我们查询源码,分析规则,如下图: 这里已经是属于第二级网址,我们将网址设置切换为高级模式,然后添加2级列表页,然后设置如下: 这样内容页的网址链接采集就设置好了,但我们发现列表页下方还有分页,所以我们还要设置分页 第四步:设置分页 获取如下图中的分页 同样是查询源码寻找规则, 然后火车采集器,选择分页设置,设置好分页范围,以及分页链接的规则,上一页(*)class="current"(*)参照下图: 设置好后,我们进行网址测试,如下图: 这样所有网址采集就设置好了 第五步:招聘信息内容采集设置 我们打开任意招聘信息内容页,采集页面上的信息,如下图: 采集器切换到内容采集规则,内容的采集就不一个一个讲,这里没有什么难点,还是查看网页源码,分析规则进行设置即可,大家可自行查看每个字段的规则设置,来学习规则原理,参照下图: 第六步:测试火车采集规则 所有的内容字段采集设置好,我们进行测试,可以多测试几个页面,以确保规则能够没问题。 当然我们在设置每个字段的时候也可以进行测试来检验规则。 确保没问题后就可以进行采集了,看这速度,是不是很爽爽!!赶紧去试试吧!

火车浏览器百度地图商家信息采集详细讲解_爬虫软件技术与爬虫软件网页数据采集器门户

1、打开百度地图,以推拿为关键词采集一个城市的所有推拿店的信息,包括名称、地址、电话、坐标。 2、进入火车浏览器的操作界面,开始脚本的编写。 3、新建百度推拿脚本并逐一添加步骤。 ①首先是打开百度地图网页 网址输入:http://api.map.baidu.com/lbsapi/getpoint/index.html ②然后输入城市 (1)这里注意,复杂的提取可能会用到xpath,(对xpath感兴趣的话可以看看这个深入学习一下,http://www.w3school.com.cn/ )对于一些简单的直接用浏览器的点选按钮在页面上点击选取即可拾取对应的xpath了。 (2)另外需要注意对变量的管理。我们找到输入框,接下来就是添加变量,写入城市、关键词。 ③设置变量的值——北京(可单步测试运行,测试能否输入城市名称) ④点击“百度一下”,及右键点击暂停等待——元素操作——点击 ⑤同理,输入城市后,我们需要输入推拿并再次点击百度,就可以找到有关推拿的商家了。 4、上面是模拟访问,接下来是采集:把页面右方出现的信息采集下来,由于右方的信息有很多页,所以我们要进行分页采集。 ⑥先来采集首页,设置一个循环并对页面进行一个条件判断,即判断有无数据:如有,则判断为真,单次取值;如判断为假,结束当前循环。 ⑦这是采集其他页(分页),加了一个点击。 ⑧最后一步,就是把采集的数据进行处理,如果有本地运行环境的话是可以导入数据库,没有的话,可以直接导入到本地。 完成后,可查看运行日志,检查每一步骤有没有成功。 火车浏览器的功能还是比较强大的,除了采集之外,群发、批量注册、自动打码等一系列复杂的网页操作都可以轻松实现。

火车采集器V9知乎网站关键词搜索信息采集教程_爬虫软件技术与爬虫软件网页数据采集器门户

今天给大家分享知乎网站问题及第一条回答内容的采集采集,通过搜索关键词采集相应的内容,本案例需要用到抓包工具来获取入口网址,以及获得UA。下面的案例讲解给大家简单作讲解! 本规则采集知乎网站问题信息为例,本规则以通过关键词搜索问题,采集相应文章及第一条回答等内容。 【案例讲解】 第一步:打开网址 https://www.zhihu.com/ 然后登录账号,然后搜索你想要的guanjianci,如“一带一路”,参照下图: 第二步:使用Fiddler 抓包软件(关于Fiddler软件介绍请查看:http://faq.locoy.com/search.html?&keyword=Fiddler 之前介绍过,这里不再讲解,也可以查看之前的东哥福利)打开软件,然后点击网页上的更多,参照下图: 然后回到抓包软件,寻找抓到的网址,参照下图 然后通过获取到的网址:https://www.zhihu.com/r/search?q … e=content&offset=10 发现网址中的10为分页参数,并且1-20任意值代表第一个分页,11-20任意值代表第2个分页,依此类推,那换到规律,我可以从1开始,然后每次递增10,这样就是1、11、21、31……等,我们按照这样的规则设置分页参数,这里仅设置5页,如下图: 第三步:采集内容网址,通过源码分析,发现网址是这样的“\/question\/49185959\”,如下图: 因网址中间有特殊符号,不能直接采集,我们可以这样设置规则,只采集其中的数字,前面是固定值,变化的只有数字,然后进行网址拼接,如下图: 第四步:内容采集设置,在这里要注意的是,知乎需要设置下UA,才能进行采集,否则将采不到内容,如何获得UA,首先打开抓包软件,然后找开要采集的内容网址页,然后抓包获得UA值,参照以下三个图: 先找到内容网址 然后右侧点击 RAW 再点击右下解的按钮 然后在记事本中复制UA值 ,然后我们在采集器中打开其他设置,将UA值粘贴到UA里面,如下图: 然后回到内容采集设置,进行内容规则设置,这里没有什么特别的难点,就不再细讲,设置好后,进行测试,如下图: 显示上图这样,就表示 设置OK了,我们可以进行采集啦! 你学会了吗?

100% Secure Checkout

PayPal / MasterCard / Visa