火车采集器之全局敏感词替换和同义词替换使用方法_爬虫软件技术与爬虫软件网页数据采集器门户

全局敏感词替换&近义词替换,功能可以把要替换的词写成一个TXT,遇到要替换的标签,只需要选择下就可以了,一次设置,多次使用。

第一步:设置同义词替换词库

火车采集器之全局敏感词替换和同义词替换使用方法教程1

通过上图,高级==》同义词替换管理,来编辑替换词库。如下图:

火车采集器之全局敏感词替换和同义词替换使用方法教程2

给词库命个名,然后点击“保存”按钮来保存。

两词之间我们设置的是以“,”号分隔,这个是可以随意设置的。

保存格式为一行一个同义词和一个或多个同义词。

按照上面的设置,我们在左侧侧空白处写了2个例子,现在解释下用途。

高兴,开心 :在采集结果中遇到“高兴”就会替换成“开心”;

吃饭,睡觉,火车采集器,下班 :在采集结果中遇到“吃饭”就会从后面的“睡觉”“火车采集器”“下班”,三个词中任意选择一个替换。

大家可以看到他们其实并不是同义词关系,这个功能虽然叫同义词替换,其实采集器是不区分到底它们是不是同义词,这样就不仅仅用作同义词的替换,还可以替换别的,发散思维。

这样一行一行设置好了,点击“保存修改”按钮保存。

通过上面的设置,会生成一个txt文件在采集器的\Configuration\Synonym目录下,如下图

火车采集器之全局敏感词替换和同义词替换使用方法教程3

直接在这里编辑删除操作。

第二步,在规则里面选择使用

标签编辑的数据处理那里,添加==》高级功能==》同义词替换,如下图

火车采集器之全局敏感词替换和同义词替换使用方法教程4

选择:

火车采集器之全局敏感词替换和同义词替换使用方法

这里有个双向替换 的选项框,有使用介绍,自己看下。

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号