正文提取功能是不需要分析页面源代码也不需要设置复杂的规则,对于简单的文章采集,大家可以首先试试这个功能,如果采集不到自己要的内容再写规则。 此方法适合部分简单的内容提前,如果你使用这个功能没有办法提取到想要的内容,请果断放弃,去写规则吧。

正文提取功能是不需要分析页面源代码也不需要设置复杂的规则,对于简单的文章采集,大家可以首先试试这个功能,如果采集不到自己要的内容再写规则。 此方法适合部分简单的内容提前,如果你使用这个功能没有办法提取到想要的内容,请果断放弃,去写规则吧。

我们试试访问这个地址:http://xxx.xxx.com/consultation/news_more.aspx?ClassID=7 然后点击下面的分页 有没有发现,无论怎么点击分页,这个地址总是没有变化的。遇到这种情况,就可以试试下面的方法是否能解决,但是需要注意的是:此方法并不能保证 全部解决这类分页地址不变的网站。 这样的情况在火车头里如何设置采集分页里的内容? 第一步:添加起始网址 上图只要单独添加这个地址,在起始网址那里无需考虑设置分页的东西。分页在下面设置 第二步:设置分页 分页设置如下: 这里只要HTTP请求方式 选择AspxPost 页面范围设置好 就可以了,“请求的页码范围”就是需要从第几页采集到第几页。 别的其他设置和普通采集是一样的

我们在采集的时候会采集到一些代码,那么我们就可以使用html标签过滤功能,可以很方便的将一些代码过滤掉。 1、html标签过滤 请在 第二步:采集内容规则 标签窗口做如下设置即可 添加—html标签过滤 需要过滤的话 就在标签前面打勾 有个特殊的选项,如下图 如果勾选了这个选项,那么其他选项无论是否被勾选,都会全部排除掉,这个需要注意的,很常见的就是我没有勾选某个选项,对应的标签为什么会被排除掉,就是因为你把这个选项 勾选了。 具体的HTML 标签不过多讲解了,不明白的可问下度娘, HTML 各元素的含义,稍作了解。 2,常用的html标签 <p, <br>,空格 是控制段落和空白处的,一般我们都会留下来,不然文字都会挤到一起会觉得文章没有格式。 <img 这个是图像标签如果你需要采集文章里面的图片 那么这个标签是要保留的,不然图片就被排除掉了。 其他html标签就需要自己查找资料去了解了。 如果通过这种方式还是不能把标签排除掉,就只能用替换了,这个标签排除功能只能对那么简单的标签进行排除,很多情况下,标签里面会加很多属性,可能导致这个功能 不能把这样复杂的html标签排除,那么就用替换为空来处理。

这个是企业版的功能,可以通过http协议来对服务器上的采集器进行远程管理。换言之,我们可以通过浏览器访问到我们的采集器来进行管理。 第一步:添加用户 按照上图步骤:高级===》服务器用户管理,来增加用户 界面如下: 输入新用户名,密码。分配“管理员”或者是“只读用户”的权限。把此用户有操作权限的分组或者任务勾选上,然后点击“保存”按钮。新添加用户成功。 第二步:开启服务器远程管理 通过上述步骤:高级===》服务器远程管理,来开启服务器远程管理。界面如下: 设置下“端口” ,按照自己的需要设置下是否允许“匿名访问”,然后就可以点击“启动”按钮。在界面右侧 看的如下信息: 右侧“匿名访问”选项我们选择的是“False”也就是不允许不通过用户名密码访问,大家可以把这个选项设置为“True” 就不需要通过用户名密码访问了,可以自己试试。 我们把“本地访问地址” http://127.0.0.1:800/?user=demo&pwd=demo 的user和pwd,的值换成我们第二步添加的用户帐号,就是:http://127.0.0.1:800/?user=loocy&pwd=123456然后放到浏览器访问看下结果: 就可以通过浏览器的方式来管理我们采集器上面的任务。 如果你的采集器放到了服务器上面,你本地就可以通过输入服务器地址(也就是上面的127.0.0.1 改成你的服务器ip地址),通过设定的端口和用户名密码 来远程管理服务器上的采集器。 还可以通过查看Api接口参数格式:http://127.0.0.1:800/api?help 来查看更多帮助信息。因为条件有限我只是在本地电脑搭建服务器来做说明。

如何修改火车采集器V7.6本地保存数据库修改,这里说的数据库是采集器存放采集数据的地方,只需给采集器选择一个数据库服务器和数据库,采集器会自定创建需要的数据表,也就是采集网址和采集内容这两步需要 的数据库。并不是常说的发布到自己网站数据库或者发布到自己指定的数据库,这种是指任务第三步发布操作对应的数据库,这种方式请参考数据库发布模块编辑器。 本教程以Mongodb 数据库来做为采集器本地保存数据库,为例来说明如果修改采集器本地保存数据库。 1.第一步 按照上图 扩展===》火车采集器===》更改数据保存数据库。还有一种打开数据库更换界面的步骤是,在欢迎页的下方有个“点击修改”如下图: 打开的更换数据库的界面如下图 2,第二步 选择我们要使用的数据库,然后进行数据库一些配置如下图 3,第三步 服务器地址填写好,mongod.exe的路径设置好,在数据库列表那里选择要做为火车采集器本地数据保存的数据库名称,然后点击“安装/启动”按钮,成功后点击“开始转换”按钮, 这样就会把火车采集器本地保存数据的数据库改变为Mongodb了,需要注意的是 每次更换了数据库,有选择清空原采集数据或者保留原数据的选项。

火车采集器7.6之ORC识别图片文字使用教程,Orc识别功能,是可以把一些简单的图片信息识别成文字信息的,网站上面的电话号码是图片格式的可以识别成纯文字。我们通过这个功能来识别下面的图片文字。 http://bj.ganji.com/tel/52650234566157315535536b513f006051650f3e5231_4.png 第一步:配置Ocr信息 按照上图点击Ocr识别图标,打开识别界面。把要识别的图片地址或者通过浏览把本地的图片地址加载到OCR工具里: 1, 加载图片 通过从本地或者直接输入图片的网络地址,然后点击“加载”按钮 2, 预处理 这个点击“添加”按钮,自己看下这些操作,其实这里一般是没有用的,没有什么方法就随便点点,走运也许就把图片识别了 3, 图片预览 通过操作预处理后的图片和原来图片的变化。 4, 字符过滤 白名单字符:要识别的字符,数字字母汉字都可以;黑名单字符:不需要识别的字符。 设置好了以后,点击“识别测试” 会弹出识别的结果,对照下如果识别是正确的点击右下角“保存配置”。如果识别不了,亲,你就放弃吧 找我们技术部开发插件识别。 这样就把识别的配置信息保存成文件了,就可以在采集器里面使用了 第二步,采集规则使用识别配置 打开需要进行ocr识别的标签,在数据处理那里,添加===》OCR图片识别,然后右侧 “点击这里选择配置文件”,就是选择在第一步那里生成的识别文件,设置好了点击“保存”按 钮。绿色字体那里注意看下,标签是采集到单个图片地址,这里注意下。也是说需要识别的标签采集到的值必须是图片的地址,但不需要勾选图片下载。 很遗憾这个功能可能对很多网站的识别都不行,如果你遇到识别不了,但又必须要识别的就联系我们官方定制插件吧 。。。。。。。。。。。。。。。。

火车采集器7.6如何调用php外部编程插件使用教程,如果你是程序员或者对php有一定的了解,看了说明文档还是不知道怎么写可以咨询我们企业QQ800019423,但是如果你根本不会写程序,那么就不要问插件怎么写了。也可以找我们定制插件。本教程只说明下如何把已经写好的插件用在采集器里面。 采集器可以把采集到的数据传递给外部程序,我们称为插件,然后对数据进行处理,再把数据传给采集器。PHP语言写插件,参考教程\Plugins\LocoySpider目录下的说明文档PHP-Demo.php 开发的插件放在目录\Plugins\LocoySpider 下面,然后就可以在采集器里面选择使用了如下图: 在规则的第四步,文件保存及部分高级设置,任务php插件那里选择插件,然后点击保存关闭规则,从新打开,才能测试。一个规则只能同时使用一个插件。

火车采集器7.6之如何添加起始网址之RSS地址采集功能,只要给采集器提供RSS地址,采集器就能把内容页地址提取出来,在添加“起始地址” 选择“Rss”选项,把rss地址填写好后,点击“测试”按钮,如果测试的结果是正确的,点击“添加”按 钮,再点击“完成”按钮。 那么就把RSS格式的地址添加成功了,如下图: 多级网址获取那里是不需要做任何操作的,如下图: 然后我们点击“测试网址采集”来测试下采集到的效果: 测试结果已经成功采集到了地址。

火车采集器如何本地任务数据编辑再发布功能,如果你需要把采集好的数据,进行修改后,再发布,可以参考如下方法。 第一步:打开本地编辑数据 右击任务===》本地编辑任务采集数据 如下图: 2,在编辑框内修改 选中要修改的内容就会出在下面的编辑框内显示,在源码模式或者设计模式下都可以修改内容,修改好后点击保存即可。

火车采集器V7.6之标签间自由组合功能使用方法,标签组合就是把2个标签采集到的内容组合起来。在编辑标签界面,提取数据方式,选择“标签组合” 可选标签就是你在规则里面已经建立好的标签

火车采集器V7.6之标签循环采集的使用方法,我们要采集一个页面上面同样格式的多条数据的时候,就可以针对一条信息设置好规则,勾选下标签循环匹配,就可以把满足这个规则的所有数据采集到如下图: 比如采集这个网站:http://www.smct.com.cn/wat/controllerServlet.do?queryid=0002001&method=doquery&querysid=g0002&showpage=1 我们查看页面源代码,我把源代码复制到txt里面做了些简单的处理,让大家看的更明白如下图: 上图看到船名都是“<tr><td >”开始“</td>”结束,我们建立一个规则分别是以“<tr><td >”开始和以“</td>”结束。 规则设置如下图: 采集结果如下: 左侧标签循环处理那里选了“添加为新记录”,右侧看到了船名都已经采集到了,并且每个船名都是一条独立的信息, 看到上图左侧有个选项“循环不足的记录以第一条记录补全”勾选上这个,如果在循环过程中有的信息没有采集到,就会用采集到的第一条数据填充。 假如左侧标签循环处理那里选了“用分隔符链接在上条的记录后” 然后在下面的“分隔符”哪一项设置分隔符,如下图: 测试结果如下: 上图可以看到每次循环采集到的结果都是用我们设置的分隔符连接起来做为一条信息,注意和上面选择“添加为新记录”,采集结果的不同。 我们通过页面源代码,知道这个是个表格,那么我们就多说些,表格如何采集。如果我们还要继续采集更多信息如下图的“英文船名”,“航次”等等。 我们打开页面源代码看到这些信息的开始都是以“<td >”开始以“</td>”结束,我们设置规则的时候就会很困难,如下图 那么看下我是如何采集到“英文船名”的规则如下: 在看下我采集“航次”规则是如何设置的: 设置完后测试采集如下图: 成功采集了! 原理就是都是以“<td >”开始那么我们就通过这个字符出现的次数来界定,结束字符全部都是“</td>”。 上面设置的规则正好说明了这个一点,船名是在第一次出现<td >的后面,英文船名是在第二次出现“<td >”的后面,航次是在第三次出现“<td >”的后面。。。。。。。 后面以此类推,中间不需要的东西我们就用“(*)”代替,表示任意。可以自己尝试写写。这个是经常采集表格要用的。

火车采集器之采集记录筛选功能的使用方法,有时有些采集的数据不需要怎么办?火车采集器的记录筛选功能可以完成这个工作。火车采集器记录筛选有以下几个处理方法: 内容过滤 请在 第二步:采集内容规则标签窗口做如下设置即可 1,内容必须包含和内容不得包含 采集的内容包含某些词或者不包含某些词。多个词之间的关系用“|”和“↑”来表示。 “|” 为只包含其中一个即可,多个词之间,或的关系; “↑”为多个条件必须都包含,与的关系,两者不可混淆使用。 2,采集结果不得为空 该功能可以让某个字段不出现空内容。 3,采集结果不得重复 该功能可以让某个字段不出现重复内容。 4,当内容长度过滤 可以设置当采集的内容长度大于或者小于或者等于或者不等于某字数时,该条过滤。 对于满足上述四条中的任何一条或者多条的情况下,采集器的处理结果是可以设置删除此条记录,或者把此条记录标记为未采集下次运行任务会再次采集。 在编辑规则的第四步:文件保存及部分高级设置 如上图,可以对符合上述设置的记录进行删除 或者 标记为未采。 删除 :就是把这条记录删掉,不会采集下来 。 标记为未采 :就是把这条记录标记为未采集 然后每次运行任务都会采集一次

火车采集器之从Http头信息中获取数据的使用方法,采集器不仅能采集页面内容信息,还可以采集到客户端向服务器端请求消息和服务器向客户机的响应消息,即Http头信息。 规则设置如下: 提前方式那里留空就可以了,然后数据处理那里,点击添加选择高级功能然后选择Http头信息提取如下图: 这边有很多选项,可以勾选测试下采集结果。 采集结果如下图: 就获取到我们访问测试页面的一些Http的头信息如上图。 这个Http头信息是一些很专业的知识,本教程只讲解如何使用,具体是什么意思专业人士自然懂,其他的自行查找资料了解。 更多Http头信息介绍参考:http://www.cnblogs.com/meil/archive/2007/03/06/665843.html

火车采集器之内容替换支持[参数]和标签的使用方法 1, 内容替换 比如我们想要把标题里面的“网购火车票”,换为“网购火车头采集器”,我们就可以用采集器的替换功能如下图: 编辑规则,在数据处理==》添加==》内容替换, “将字符串”空白框里写要替换的字符串; “替换为”空白框里写替换后的字符串。 设置好了,点击“确定”按钮,替换可以有多个替换,需要一个一个添加替换,不能写在一起替换。 如上图操作,测试结果如下: 看已经替换成功了。这个是最基本的替换了。 2, 内容替换支持参数 下面在说一种常用的替换,这个不单纯的是把字符串1替换成字符串2,是要从字符串1中获取到部分字符再重新组合成新的字符串。如下图: 我们把src里面的图片地址给拿出来,设置如下图 我们来测试下采集结果: 是不是替换成我们想要的了。 总结,就是在“将字符串”空白框里,用[参数]代替我们需要的字符,这个可以是多个,然后在“替换为”空白框里面,使用[参数1][参数2]...[参数n] 按照顺序来替代前面的[参数]。 3, 内容替换支持标签 在这个替换功能还可以使用标签如下图: 我们要把标题加到内容的前面去,替换那里这样写: “将字符串”空白框里面直接用[参数],就是获取全部的内容。 测试的结果如下: 已经把标题标签采集到的结果添加到内容里面去了。 替换这个块功能很灵活,能解决很多问题,当然需要你能举一反三。

全局敏感词替换&近义词替换,功能可以把要替换的词写成一个TXT,遇到要替换的标签,只需要选择下就可以了,一次设置,多次使用。 第一步:设置同义词替换词库 通过上图,高级==》同义词替换管理,来编辑替换词库。如下图: 给词库命个名,然后点击“保存”按钮来保存。 两词之间我们设置的是以“,”号分隔,这个是可以随意设置的。 保存格式为一行一个同义词和一个或多个同义词。 按照上面的设置,我们在左侧侧空白处写了2个例子,现在解释下用途。 高兴,开心 :在采集结果中遇到“高兴”就会替换成“开心”; 吃饭,睡觉,火车采集器,下班 :在采集结果中遇到“吃饭”就会从后面的“睡觉”“火车采集器”“下班”,三个词中任意选择一个替换。 大家可以看到他们其实并不是同义词关系,这个功能虽然叫同义词替换,其实采集器是不区分到底它们是不是同义词,这样就不仅仅用作同义词的替换,还可以替换别的,发散思维。 这样一行一行设置好了,点击“保存修改”按钮保存。 通过上面的设置,会生成一个txt文件在采集器的\Configuration\Synonym目录下,如下图 直接在这里编辑删除操作。 第二步,在规则里面选择使用 标签编辑的数据处理那里,添加==》高级功能==》同义词替换,如下图 选择: 这里有个双向替换 的选项框,有使用介绍,自己看下。

火车采集器之任务运行日志使用方法 1,首先开启日志功能 默认是不开启的,也就是不记录采集器的运行情况,如下图 通过菜单栏 工具==》选项: 2,查看日志 在菜单栏 高级==》任务运行日志管理: 任务运行日志查看器如上图。 日志文件夹目录是\System\Logs下面

火车采集器之任意格式文件下载功能使用方法解说,如下图: 编辑标签界面,文件下载选项,勾选探测文件并下载,会把采集到的任何格式的文件附件下载下来,包含常见的图片。 顺便说下其他选项: “将相对地址补全为绝对地址”:勾选这个,会把标签采集到相对地址补全为绝对地址。 “下载图片”:采集器是不认识什么是图片的,只要代码格式是<img src=”图片地址”/>采集器才认为这个是图片,仅仅是图片的地址,勾选这个是不会下载的,很多用户都没有明白这点。 “探测文件真实地址但不下载”:有时候采集到的附件下载地址,其实不是真实的的下载地址,点击后是会有跳转的,勾选这个就会把真实地址给采集出来,但是只是下载地址并不下载。

默认情况下,火车采集器会把采集的数据先保存到自己的数据库,然后根据用户设置的发布配置,再从数据库里面读出数据通过发布配置把数据发布出去。 你也可以不让采集器把采集到的数据保存到自己的数据库,而是采集到数据直接通过发布配置发布出去,也就是边采集边发布。 如下图: 在规则的第四步:文件保存及部分高级设置右下角,红色框起来的部分,勾选下就可以了。

火车采集器之多网站站群式web发布的设置方法,假如你需要把一个采集规则采集到的信息同时发布到多个网站或者一个网站到多个栏目下你可以使用这个功能。 这个功能是把一个规则采集到的信息不重复的发布到多个网站或者多个栏目,但是发布到每个网站或者栏目的信息的条数是不固定的。 在规则第三步:发布内容设置 添加好了发布配置后,勾选“多网站乱序发布”

火车采集器之多页采集网址设置教程,什么是默认页?什么是多页?假如我们通过采集器采集到了最终内容也地址是http://fsdeshun.cn.1688.com/,然后我们还想点击导航栏上面的“联系方式”进入到联系页地址 http://fsdeshun.cn.1688.com/page/contactinfo.htm来继续采集信息。 那么本例的http://fsdeshun.cn.1688.com/在采集器里面就叫做默认页,而地址http://fsdeshun.cn.1688.com/page/contactinfo.htm ,是通过http://fsdeshun.cn.1688.com/获取到 的,那么这个地址 相对与地址http://fsdeshun.cn.1688.com/就叫做多页。 明白了多页和默认页的定义,下面我们来说明写如果从默认页获取到多页。 在规则的第二步:采集内容规则,点击“多页管理”按钮,如下图 打开后看到的界面如下图: 上图看到或者地址的方式有两种方式:1,依据规则对默认页地址替换生成地址;2,在默认页源代码内采集得到地址 1,根据规则对默认页地址替换生成地址:也就是默认页和多页地址上面有相同的地方,通过简单的替换就可以变成多页地址。 2,在默认页源代码内采集得到地址:也就是多页的地址在默认页的页面源代码里面。 现在就用采集阿里巴巴公司信息为例来说明下这两种方式如何获取多页。 依据规则对默认页地址替换生成地址 比较默认页“http://fsdeshun.cn.1688.com/”和多页地址:“http://fsdeshun.cn.1688.com/page/contactinfo.htm”之间的共同点,在默认页后面加上“page/contactinfo.htm”就是我们的多页地址了。 写到采集器里面如下图: 上图我们把需要的部分用(.*)代替,这里是用正则替代需要的部分,表示方式很多种,大家记住我这种(.*),是万能的,如果看不懂是什么,那么也不需要纠结了,就记住好了。 下面的替换为是通过$1,$2…$数字来按照顺序对应上面(.*)表示的部分。这里其实用一个(.*)就可以表示了,我这里特意多用了几个,来说明对应关系的。 我们设置好了,把默认页写好然后点击右侧的“测试”按钮,看下测试结果中已经正确获取到我们联系页的地址了,正确后,就可以点击保存了。 这种方式如果默认页地址中出现问号“?”如,那么问号前面一定要加反斜杠写成“\?”,切记切记!!!!! 在默认页源代码内采集得到地址 我们打开默认页http://fsdeshun.cn.1688.com/查看页面源代码,可以发现我们要的多页地址就在页面源代码里面如下图: 我们在采集器里的设置如下: 和设置采集规则一样,正则匹配内容里面我们把需要的部分用[参数]代替,可以使用多个[参数],与后面的组合结果中的[参数1][参数2]....[参数n],按照顺序一一对应的。 同样我们要测试下获取的结果是不是正确的,如果正确那么就点击保存,在写规则里面使用。 规则设置说明我们如果要采集默认页的数据就根据默认页的页面源代码来设置规则如下图: 我们采集多页的信息就根据多页的页面源代码来设置采集规则如下图: 所属多页这里选择的是对应多页的名称!!!!!一定不要忘记了 看下采集效果:

火车采集器之简体繁体互转功能使用教程,简体繁体互转功能如下图:

火车采集器之列表页分页采集获取功能使用方法,对于设置列表分页,下图设置是最常见也是最常用的。 现在教大家另外一个获取分页的办法,就是通过列表页分页采集获取功能来自动获取分页。 使用这个功能,起始页就只需要把首页地址添加进去就可以了如下图: 分页设置是在 “多级网址获取”里的“列表分页获取”如下图: 上图“从该区域中提取列表分页网址”这里就是找到源代码里面分页开始和结束,中间包含的地址就分页地址。 对于那种分页全部列出来的,设置好这一步就可以了,但是很多情况下分页都不是完全列出来的,中间会有省略号代替如下图: 现在针对全部列出,和不是全部列出这2种情况,做一个都适用的设置,我一直都是用这种方式获取,几乎解决所有的网站。 我们重要的是要找到当前页源代码的特点。我是用http://news.qq.com/newsgn/zhxw/shizhengxinwen.htm 这个列表页来做说明的。 我们看下第一页分页源代码的情况如下图: 再看下第二页源代码的情况如下图: 然后我们不再一页一页看随便看一页,查看源代码我这里选第五页如下图: 通过红色标注,大家看到规律了没有?当前页都是<strong></strong>这个代码后面紧接着一个<a >就是下一页地址。 也就是说我们是要通过当前页获取下一页,这样一级一级的向下获取,直至把所有分页获取到。 那么放到采集器里面的表示就是从<div class="pageNav">开始,中间我不管是什么用(*)表示,然后遇到第一个<strong>(*)strong>,因为页码也是变化的所以中间我用(*)表示变化的。 然后到再到第一次出现</a> 做为结束,中间包含的就是下一页地址。 而且分页地址也有一个规律<a href="http://news.qq.com/newsgn/zhxw/shizhengxinwen_6.htm"> 变化的是页码数字,变化的用参数来替代,其他是不变化的,那么我们只要获取变化 的就可以了。 原理就是这样,在我遇到的分页都是有这样的规律的,源代码肯定是不一样的,但是规律是一样的,大家要会举一反三,不要死脑筋。这里告诉的是方法!!!! 写到采集器里面如下图: 我们可以通过上图“最多获取分页数”来设置要获取多少页,0为全部获取。 右侧“组合生成列表页分页”我们做了设置的,上图的“自动识别分页”就不需要勾选了。最好不要勾选,有时候会出错。 我上面的截图都是勾选上的,默认是勾选的,设置好规则了,就把这个勾选取消。

列表页附加参数获取功能,是在采集内容页地址的时候,通过设置采集规则,获得的值,也就是获取列表页的值,该值将被循环的添加到每条记录上。 如下图,设置在 “添加多级网址采集规则” 的第四步: 我们通过采集腾讯新闻为例来说明这个功能如何使用。 比如我们采集腾讯新闻的时候,要把分类“时政新闻”这个分类加到每条信息里面。 和第二步建立标签一样,在源代码里面找到前后字符,然后我们建立一个标签[标签:分类],如下图,这里又有一个地方可以建立标签 所以标签并不是只能在第二步采集内容规则那里建立大家要明白,看下图: 设置好了我们点击保存,测试下。 因为这个标签的值是在列表页获取的,如果你直接到第二步采集测试是采集不到任何值的如下图: 上图看到,分类标签是灰颜色的,就表示这个标签是在采集地址的时候获取的,也就是通过第一步:采集网址规则,如果你不经过第一步直接在第二步测试的话 是没有值的。 必须通过测试网址如下图: 然后点击测试采集到的地址到第二步才可以. 选中地址,在列表页建立的标签和采集的值就会看到如上图。 然后双击地址就会跳转到第二步:采集内容规则 然后测试,就可以把列表页采集的标签显示出来如下图:

火车采集器之内容分页采集使用教程,采集文章的时候,难免遇到文章有分页,本教程讲解下内容分页的采集。 在规则的第二步:采集内容规则左下方有个“分页获取规则”选项卡,用来设置分页。如下图: 全部列出模式适用于分页地址全部显示出来如下图: 上下页上n页下n页适用用分页地址列出一部分如下图 我们先说下上下页模式的分页,以采集这个地址http://www.asia-home.com.cn/2013/0117/1358391833627.html为例 在第一页我们查看分页代码的情况如下: 在第三页分页代码的情况如下: 在第五页分页代码的情况如下: 通过上面我们是否可以得到一个规律:当前页的源代码是“<strong>当前页码</strong></a>”然后紧接着的代码“<a href=下一页的地址>”就包含了下一页的地址 然后以“</a>”结束,也就是从页面源代码“<strong>当前页码</strong></a>”开始然后再以“</a>”结束,中间就包含了“下一页”的地址,这就是我们说的上下页模式, 原理就是找到当前页如何获取到下一页地址的源代码格式,然后我们把这个源代码格式填写到采集器里面如下图: 左侧空白框填写的是“<strong>(*)</strong></a>”其中当前页的页码我们用(*)代替,右侧的空白框我们写的是“</a>”来做为结束,中间的就是下一页地址。 “自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址。 “手动填写分页地址规则”:有的时候采集器识别分页的时候遇到无法识别或者识别的不是很准确,我们就可以把分页的格式写上去,来确保识别分页的正确性。 一般是我们先用“自动识别”如果获取不到我们就用“手动填写分页地址规则”。本例子中如果我们用“手动填写分页地址规则”可以设置如下: 因为上面我们说明了下一页的地址格式是“<a href=下一页的地址>”,其中我们需要的部分用[参数]代替。下面用[参数1][参数2]等等按照顺序和上面的[参数]一一对应。 以上分页就设置好了,现在我们设置采集内容的规则: 设置的规则一定要适用于后面的分页,然后不要忘记勾选“该标签在分页中匹配”,如果不勾选是不会采集分页地址的。 如何实现采集到的分页发布到自己网站上也是同样的分页,设置如下: 标签循环处理选项卡下面有个“分页内容连接代码”,在这里设置了连接代码,采集到的每页的内容就会以这个连接码连接在一起。 我们手动在自己网站发布文章的时候,需要分页的时候,我们都设置一个分页代码各个网站系统是不一样的,遇到分页代码就会分页,那么我们就可以把自己网站上 生成分页的代码写到这个“分页内容连接代码”就能实现分页效果了。 我们看下采集的效果: 现在说下全部列出模式的分页,如下图: 设置下分页开始和结束。其他设置和上面上下页是一样的。 备注:其实所有的分页都是可以使用上下页模式的,无论分页地址是否全部或者部分列出,根据上面讲到的原理,找到规律就可以了,我写分页全部用上下页模式 还希望大家不用太死板,灵活运用才能更好的解决问题,其实没有什么难的,分析的方法我在上面写的很清楚了,就按照这个来做就可以了。太死板的人,是帮不了你了,无视就好。