火车采集器的PHP插件和2010的插件是一样的。还是只处理列表页,内容页,多页的网页源代码,保存时的标签。
火车采集器php插件编写视频教程中用一个简单的例子对所有可用到插件的地方进行了演示。
在压缩包中包含了所有教程中使用到的文件。需要注意的一点是,用户使用的采集器版本需要是3.27及以后的版本。如果您的版本低于这个时间,请下载最新手动更新包更新。.注意,请先更新,再导入规则进行测试。
附件下载:
PHP插件的使用.7z 4.21MB
火车采集器分类和分类id新思路20180814
对数据里面的信息进行设置。
<?php
header("Content-type: text/html; charset=gb2312");
$server = 'localhost';
$user = 'aaabbb';
$pass = 'aaabbb12345';
$dbname = 'aaabbb';
$conn = mysql_connect($server,$user,$pass);
mysql_select_db($dbname);
mysql_query("set names 'gb2312'");
$result = mysql_query("select * from `jieqi_article_article` where articlename='".iconv('utf-8','gb2312',$_GET['title'])."'");
$row = mysql_fetch_array($result);
if(!$row){
echo 0;
}else{
echo $row['articleid'];
}
mysql_free_result($result);
?>
以上内容制作成一个huochetou.php文件,然后用网址进行访问。调用内容。
用火车头的接口进行处理数据。
以下内容制作成php插件放入采集器里面来进行处理。
<?php
error_reporting(E_ERROR | E_WARNING | E_PARSE);
/*
*外部编程接口处理标签内容示范文件
*该文件内自动系统的三个参数$LabelArray $LabelCookie,$LabelUrl
*对任意采集的标签都适用请对标签内容处理后直接将该数组serialize($LabelArray)输出,
*采集器内部即可接收到该标签的内容,对比以前的接口规则,新规则可以实现标签之间的数据调用和处理
*参数说明:
*$LabelArray – 标签名及标签内容集合 结构如:Array('栏目id' => 2,'出处'=> '新浪微博','内容'=>'<center><b>暴笑短信') ##
*$LabelCookie – 对应采集中用到的Cookie值
*$LabelUrl – 当前采集的页面的Url地址
*特别注意:如果是处理列表页,默认页,多页时会有以下两个标签
$LabelArray['Html'] 网页的源代码,没有经过采集器处理的,直接下载后的数据.修改这里的数据,请将新值赋予$LabelArray['Html']
$LabelArray['PageType'] 值可能为 List, Pages, Content 分别代表处理列表页,多页,默认页
*以上语句建议不更改,以下为用户操作区域 该区域只限对数组值进行操作,不得有打印输出产生,不得直接增加或删除相应标签名
*/
$url = "http://域名/huochetou.php?title=".$LabelArray['标题id'];
$LabelArray['标题id'] = file_get_contents($url);
echo serialize($LabelArray);
?>
RSS