火车采集器之常用正则表达式代码分享_爬虫软件技术与爬虫软件网页数据采集器门户

<数字匹配>

[1-9][0-9]{5,9}

匹配6到10位QQ号码

[1-9]表示第一位不能为0

 

[1,2,3,4,5][0-9]{5,9}

匹配6到10位QQ号码

[1,2,3,4,5]表示第一位能为1,2,3,4,5

 

匹配中国邮政编码:[1-9]\d{5}(?!\d)

评注:中国邮政编码为6位数字

说明:(?!\d)表示非数字的后续内容。

比方字符串 555555dasfdsf, dasfdsf就不会被提取,只捕获前面。 

在一定条件下有用,在某些条件下又是多余的。

 

匹配国内电话号码:\d{3}-\d{8}|\d{4}-\d{7}

评注:匹配形式如 0511-4405222 或 021-87888822

 

匹配身份证:\d{17}[a-z0-9A-Z]{1}

评注:中国的身份证18位

 

<email匹配>

匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

评注:表单验证时很实用

 

<汉字匹配>

匹配中文字符的正则表达式: [\u4e00-\u9fa5]

评注:匹配中文还真是个头疼的事,有了这个表达式就好办了

 

匹配双字节字符(包括汉字在内):[^\x00-\xff]

评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)

 

<链接匹配>

匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*

评注:网上流传的版本功能很有限,上面这个基本可以满足需求

 

<ip匹配>

匹配ip地址:\d+\.\d+\.\d+\.\d+

评注:提取ip地址时有用

提取最后一个数字的正则表达式

(\d+)\. 或者 \d+(?=\.) 

 

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号