火车采集器V9.7发布至discuz门户发布教程详细介绍_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7发布至discuz门户发布教程详细介绍,这里就为大家讲解如何在线发布到自己的网站~以discuz3.X门户为例

▼首先我们在内容发布规则里选择Web在线发布,新建一个发布规则。

火车采集器V9.7发布至discuz门户发布教程详细介绍截图1

▼可以根据自己网站后台的搭建系统来选择模块,火车采集器自带很多常用的发布模块,这里我们选择 DiscuzX_3.x_门户,双击打开进行编辑(用一个已有的来讲解,主要让大家了解发布规则的制作过程)

火车采集器V9.7发布至discuz门户发布教程详细介绍截图2

▼上方已有的参数基本可以不修改,当然如果是自己新建的发布模块,这些都是空的,需要根据自己的网站进行填写。

首先是自动登录配置,需要填写登录的地址后缀,以及用户名密码表单。

火车采集器V9.7发布至discuz门户发布教程详细介绍截图3

(1)登录地址后缀:登录地址就是post地址,登录地址后缀即为post地址中除去域名和后台目录之后的后缀部分。

比如fiddler中数据为 POST http://127.0.0.1:801/dede/dede/login.php

那么地址后缀就是:/dede/login.php

(2)来源页面后缀:来源页面即为Referer,来源页面后缀同样为Referer除去域名和后台目录之后的后缀部分。

(3)验证码地址:可在验证码上右击,复制地址查看填写。

(4)登录post数据:可对表单名和表单值进行添加、修改、删除等操作,其中表单的相关数据是可以通过自动抓取登录数据包、粘贴抓包获取的数据、提取post表单登录数据三种方式获取的。

▼其次是获取网站栏目ID,刷新列表页面和来源页面后缀:把上述“内容发布参数” 中的来源页面后缀的设置拿过来直接使用即可。

火车采集器V9.7发布至discuz门户发布教程详细介绍

这里填写的页面一般都是发布文章的页,可以通过查看发布页面的源代码找到刷新列表部分的源码来获取栏目ID的规则。

(1)分类列表名及ID格式:ID 用[分类ID]替换;栏目名称用 [分类名称]替换;不规则出现的代码用 (*)通配符匹配。

▼然后是内容发布参数设置,红框中是需要发布的表单配置,这里的表单值的标签名需要和采集内容里的标签名相同。这里设置完后保存,起一个规则名称。

火车采集器V9.7发布至discuz门户发布教程详细介绍截图4

▼发布模块保存后,回到在线发布管理界面,这里要选择网页编码,根据自己的网站编码来选择。这里登录操作还要填写网站地址,登录方式,小采这里是选择了数据包登录,即填写有发布权限的用户名和密码。填写完毕之后我们点击获取栏目分类进入下一步。

火车采集器V9.7发布至discuz门户发布教程详细介绍截图5

▼如果配置成功,可以看到上图,总计获取到栏目列表有多少个,然后下方出现可下拉选择的栏目列表,选择你要发布的栏目,然后保存。

火车采集器V9.7发布至discuz门户发布教程详细介绍截图6

▼在web发布设置列表中勾选这个栏目

火车采集器V9.7发布至discuz门户发布教程详细介绍截图7

▼回到内容采集规则的页面,我们可以测试采集一条,然后如上图,点击测试发布数据。如果成功会出现下图:

火车采集器V9.7发布至discuz门户发布教程详细介绍截图8

火车采集器V9.7发布至discuz门户发布教程详细介绍截图9

到这里发布规则就设置完成了,在运行任务时勾选上发布,就可以进行采集发布啦!

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号