任何问题请联系WX:uu16853

买模板送网站采集器 让你轻松放开双手运营网站!

购买更多有优惠!

什么是火车采集器 如何使用火车采集器软件_爬虫软件技术与爬虫软件网页数据采集器门户

  火车数据采集平台是一款通用型数据采集程序框架。它包含了数据采集最常用的计划任务,数据发布,正文识别、OCR图形图像识别,采集入库等模块,可以支持其它采集软件快速稳定在平台上使用。火车采集器平台定义了统一的接口规范并提供了大量的api,用户可以很方便的开发自己的应用并在该平台上运行,可以减少开发上时间和成本。目前平台上有官方自带火车采集器。   1.火车采集器系统需求   操作系统:Win7,WinXP,Win2008,Win2003,Windows 2000等windows内核的操作系统上   硬件配置:CPU主频1.6G以上,内存1G以上,分辨率至少为1024*768,网络带宽1Mbps以上。   必要组件:软件需要安装.NET FrameWork 2.0框架,如程序不能打开,请下载微软的.NET FrameWork 2.0框架并安装。.net framework 2.0下载地址:   32位操作系统:http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe   64位操作系统:http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe2   2.火车采集器程序的安装   将下载后的压缩包直接解压缩到您电脑的任何地方即可完成采集的安装–安装过程不操作注册表和系统文件,不产生任圾文件!   3.火车采集器程序的升级   运行程序目录下AutoUpdate.exe按提示进行升级。   4程序的卸载   直接删除采集整个安装文件夹即可以完成程序的卸载。在卸载前强烈建议您备份Configuration,Extensions,Data和Module文件夹(即用户配置,扩展目录,采集数据和模块)以便下次使用!   采集相关术语   1.火车采集器采集规则   简称规则,V7以前版本采集规则分为站点规则和任务规则,通常是指任务规则。V7版及以后采用无限级分组管理任务规则,所以不再有站点规则的概念。所谓采集规则就是要采集一个网站或某一网站栏目网页需要在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。V7版的任务规则文件后缀名为.ljobx,以前的站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。   2.火车采集器采集任务   采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集里导出的采集规则文件(.ljobx后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljobx文件。   3.火车采集器发布模块   发布模块又称模块、发布规则,分为WEB发布模块和数据库发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:网站/后台中或指定数据库中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集里使用。数据库发布模块文件的后缀名为:.dpm;WEB在线发布模块文件的后缀名为:.wpm。(采集规则和发布模块都可以从采集里导出,也都可以导入到采集中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)   4.火车采集器标签   标签是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定。比如标题,手机号,邮件,作者,内容标签,采集到的信息则在发布模块中就可以通过该标签名对应获取到,格式为[标签:标签名]如[标签:标题],标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,顾名思义,列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息。   注:通常还有一种说法为 html标签,这里的标签是指一些html代码里面的属性标识符,如:   5.火车采集器起始网址   用来获取下级链接地址的入口网址,可以为一条或多条,可以通过添加起始网址向导添加同格式多条网址或导入文本网址。这里的起始网址相当于2010版以前的0级网址的概念。如果没有定义多级网址的获取方法,这些地址即作为内容页网址进行内容采集。   6.火车采集器多级网址   依次根据列表里面的多级网址顺序采集分析地址,多级网址相当于2010版以前的1级,2级,3级到N级的概念。通过依次采集分析到最后一级得到内容页地址。多级网址的获取可以使用自动分析,手工分析及Xpath可视化提取方法采集下级网址,在采集的过程中,可以同时采集列表分页及提取列表页附加参数。   7.Cookie   简单地说,就是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务进行交互的字符串。在浏览中使用时通常还会以文本形式记录到您的IE缓存目录中以便下次在有效期内不用输入用户信息即可继续访问验证权限的网页。   8.User-Agent   这是用来向服务通知您使用的客户端是IE6,IE7,FireFox或是某某抓取蜘蛛,在某些需要登录的网页可能同时验证Cookie和User-Agent所以可能需要您将其设置为与本机浏览同样的格式。   9.分页   比如这篇文章页面:http://ent.qq.com/music/a/20050516/000026.htm它的内容比较长,分成了7页显示出来,而真正的内容需要将7页的内容组合起来。这样的7个子页面就是分页。   10.多页   比如绿盟的这篇页面:http://www.xdowns.com/soft/1/30/2008/Soft_45507.html,我们要获取其下载地址,而下载地址是需要打开一个新页面才能看到,在http://www.xdowns.com/soft/softdown.asp?softid=45507这个页面中,我们称后面这种页面为多页。   同理要获取http://product.it168.com/detail/doc/395075/index.shtml这样一个产品页里面的所有对应的信息,用一条规则搞定,则需要定义比如报价多页:http://product.it168.com/detail/doc/395075/price.shtml,参数多页:http://product.it168.com/detail/doc/395075/detail.shtml,图片多页:http://product.it168.com/detail/doc/395075/pic.shtml等等。V7的无限级多页规则可以在多页里面继续设置多页或桥页采集下级内容,比如该例中的图片多页:http://product.it168.com/detail/doc/395075/pic.shtml里面还分为:外观图片,细节图片,配件图片,要获取到配件图片的所有内容则需要继续定义一个基于图片多页的二级深度的配件图片多页:http://product.it168.com/detail/doc/395075/25/1/pic.shtml。在该多页中定义标签采集到您所需要的信息。   11.正则   是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。 详见百度百科: http://baike.baidu.com/view/94238.htm,比如d+可以匹配到一个或多个数字。在这里收录了一篇正则表达式的30分钟经典教程: http://help.locoy.com/Document/Learn_Regex_For_30_Minutes.htm   火车采集器里面有纯正则,还有一种基于参数匹配的伪正则,在匹配时使用[参数]标签代替您想提取的字符串,在组合时使用对应序号的[参数1],[参数2],[参数N]来组合出需要的字符串。详见下面的[参数]术语项。   [参数]   用来匹配某项准备提取信息的标记标签,如想要在以下代码中提取组合出某种格式。以从代码"mClk(this,'108484','134217', '168475','1');"中提取组合出新的地址格式为例。   "mClk(this,'[参数]','[参数]', '[参数]','1'); […]

火车浏览器导出登录后的cookie火车采集器引用无效果的解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车浏览器导出的cookie是所有打开页面的cookie,而火车采集器在调用该cookie时,若有多个相同的key ,则以最上面的key为准,如下图: 则这可能会导致火车采集器调用未登录的key ,导致无法采集登录后的内容。想要解决这种问题,有一下两种方式: 1.登录前,调用Cookie操作,清空火车浏览器中cookie 2.若清空cookie后,还是有相同的key ,则需先导出cookie至文本中 然后使用文件操作读取文本中cookie至list 变量 使用变量清理功能清除list变量中无效的key  然后将list变量中内容覆盖保存至采集器Cookie目录下。

100% Secure Checkout

PayPal / MasterCard / Visa