火车采集器V7.6之html标签排除使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

我们在采集的时候会采集到一些代码,那么我们就可以使用html标签过滤功能,可以很方便的将一些代码过滤掉。

1html标签过滤

请在 第二步:采集内容规则 标签窗口做如下设置即可

添加—html标签过滤

火车采集器V7.6之html标签排除使用教程1

需要过滤的话 就在标签前面打勾

有个特殊的选项,如下图

火车采集器V7.6之html标签排除使用教程2

如果勾选了这个选项,那么其他选项无论是否被勾选,都会全部排除掉,这个需要注意的,很常见的就是我没有勾选某个选项,对应的标签为什么会被排除掉,就是因为你把这个选项

勾选了。

具体的HTML 标签不过多讲解了,不明白的可问下度娘, HTML 各元素的含义,稍作了解。

2,常用的html标签

<p, <br>,空格 &nbsp; 是控制段落和空白处的,一般我们都会留下来,不然文字都会挤到一起会觉得文章没有格式。

<img 这个是图像标签如果你需要采集文章里面的图片 那么这个标签是要保留的,不然图片就被排除掉了。

其他html标签就需要自己查找资料去了解了。

如果通过这种方式还是不能把标签排除掉,就只能用替换了,这个标签排除功能只能对那么简单的标签进行排除,很多情况下,标签里面会加很多属性,可能导致这个功能

不能把这样复杂的html标签排除,那么就用替换为空来处理。

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号