任何问题请联系WX:uu16853

买模板送网站采集器 让你轻松放开双手运营网站!

购买更多有优惠!

火车采集器之常用正则表达式代码分享_爬虫软件技术与爬虫软件网页数据采集器门户

<数字匹配>

[1-9][0-9]{5,9}

匹配6到10位QQ号码

[1-9]表示第一位不能为0

 

[1,2,3,4,5][0-9]{5,9}

匹配6到10位QQ号码

[1,2,3,4,5]表示第一位能为1,2,3,4,5

 

匹配中国邮政编码:[1-9]\d{5}(?!\d)

评注:中国邮政编码为6位数字

说明:(?!\d)表示非数字的后续内容。

比方字符串 555555dasfdsf, dasfdsf就不会被提取,只捕获前面。 

在一定条件下有用,在某些条件下又是多余的。

 

匹配国内电话号码:\d{3}-\d{8}|\d{4}-\d{7}

评注:匹配形式如 0511-4405222 或 021-87888822

 

匹配身份证:\d{17}[a-z0-9A-Z]{1}

评注:中国的身份证18位

 

<email匹配>

匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

评注:表单验证时很实用

 

<汉字匹配>

匹配中文字符的正则表达式: [\u4e00-\u9fa5]

评注:匹配中文还真是个头疼的事,有了这个表达式就好办了

 

匹配双字节字符(包括汉字在内):[^\x00-\xff]

评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)

 

<链接匹配>

匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*

评注:网上流传的版本功能很有限,上面这个基本可以满足需求

 

<ip匹配>

匹配ip地址:\d+\.\d+\.\d+\.\d+

评注:提取ip地址时有用

提取最后一个数字的正则表达式

(\d+)\. 或者 \d+(?=\.) 

 

100% Secure Checkout

PayPal / MasterCard / Visa