正则表达式¶
简介¶
正则,就是正则表达式,英文是 Regular Expression,简称 RE,常缩写成 RegEx 或 RegExp。顾名思义,正则其实就是一种描述文本内容组成规律的表示方式。在编程语言中,正则常常用来简化文本处理的逻辑。
正则的功能:
- 校验数据的有效性。比如校验手机号、邮箱。
- 查找符合要求的文本内容。比如查找符合某规则的号码。
- 对文本进行切割、替换等操作。比如用连续的空白符切割。
语法¶
- 点
.:允许匹配任何字符,包括特殊字符和空格。 - 字符集
[abc]:如果一个词中的字符可以是各种字符,我们就将所有的可选字符写进中括号 [] 中。 - 否定字符集
[^abc]:在 [] 中的 ^ 后面并排输入想要排除的字符。 - 字母范围
[a-z]:为了查找指定范围的字母,我们需要将起始字母和结束字母写进[]中,中间用连字符-分隔。它区分大小写。 - 数字范围
[0-9]:为了查找指定范围的数字,我们需要在[]中输入起始和结束数字,中间用连字符-分隔。 - 括号
():分组:可以对一个表达式进行分组,并用这些分组来引用或执行一些规则。为了给表达式分组,需要将文本包裹在()中。 - 引用组:第一组用
\1来避免重复书写。这里的1表示分组的顺序。在表达式的末尾键入\2以引用第二组。 - 括号
(?: ):非捕获分组:可以对表达式进行分组,并确保它不被引用捕获。 - 竖线
|:竖线允许一个表达式包含多个不同的分支。所有分支用|分隔。和在字符层面上运作的字符集[abc]不同,分支在表达式层面上运作。 - 转义字符
\:在书写正则表达式时,我们会用到{ } [ ] / \ + * . $ ^ | ?这些特殊字符 。为了匹配这些特殊字符本身,我们需要通过\将它们转义 - 插入符
^:匹配字符串的开始:若仅查找行首的数字,请在表达式前面加上^。 - 美元符号
$:匹配字符串的结束:在文本的后面添加$,来查找仅在行末出现的文本。 - 单词字符
\w:字母、数字和下划线:表达式\w用于查找字母、数字和下划线。 - 非单词字符
\W:\W匹配除字母、数字和下划线之外的字符。 - 数字字符
\d:\d仅用来匹配数字。 - 非数字字符
\D:\D匹配除数字之外的字符。 - 空白符
\s:\s仅匹配空白字符。 - 非空白符
\S:\S匹配除空白符之外的字符。
重复¶
一些特殊字符用来指定一个字符在文本中重复的次数。它们分别是加号 +、星号 * 和问号 ?。
- 星号
*:在字符后面加上*,表示一个字符完全不匹配或可以匹配多次。 - 加号
+:为了表示一个字符可以出现一次或多次,将+放在它后面。 - 问号
?:为了表示一个字符是可选的,在它后面加一个?。 - 大括号 - 1:为了表示一个字符出现的确切次数,我们在该字符的末尾,将它出现的次数写进大括号
{}中,如{n}。 - 大括号 - 2:为了表示一个字符至少出现多少次,我们在该字符的末尾,将它至少应出现的次数写进大括号
{}中,并在数字后面加上逗号,,如{n, }。 - 大括号 - 3:为了表示一些字符出现的次数在某个数字范围内,我们在该字符的末尾,将它至少和至多出现的次数写进大括号
{}中,中间用逗号 , 分隔,如{x,y}。
零断宽言¶
如果希望正在写的词语出现在另一个词语之前或之后,需要使用「零断宽言」。
- 正向先行断言:
(?=): - 负向先行断言:
(?!): - 正向后行断言:
(?<=): - 负向后行断言:
(?<!):
标志¶
标志改变表达式的输出。这就是标志也称为 修饰符 的原因。标志决定表达式是否将文本视作单独的行处理,是否区分大小写,或者是否查找所有匹配项。
- 全局标志 /g:global。全局标志使表达式选中所有匹配项,如果不启用全局标志,那么表达式只会匹配第一个匹配项。
- 多行标志 /m:multiline。正则表达式将所有文本视作一行。但如果使用了多行标志,它就会单独处理每一行。
- 忽略大小写标志 /i:case insensitive。为了使我们编写的表达式不再大小写敏感,我们必须启用 不区分大小写 标志。
- 贪婪匹配:正则表达式默认执行贪婪匹配。这意味着匹配内容会尽可能长。
- 懒惰匹配:与贪婪匹配不同,懒惰匹配在第一次匹配时停止。在
*之后添加?,将查找第一个匹配项。
常用的一些正则表达式¶
校验数字的表达式¶
-
数字:
^[0-9]*$ -
n 位的数字:
^\d{n}$ -
至少 n 位的数字:
^\d{n,}$ -
m-n 位的数字:
^\d{m,n}$ -
零和非零开头的数字:
^(0|[1-9][0-9]*)$ -
非零开头的最多带两位小数的数字:
^([1-9][0-9]*)+(.[0-9]{1,2})?$ -
带 1-2 位小数的正数或负数:
^(\-)?\d+(\.\d{1,2})?$ -
正数、负数、和小数:
^(\-|\+)?\d+(\.\d+)?$ -
有两位小数的正实数:
^[0-9]+(.[0-9]{2})?$ -
有 1~3 位小数的正实数:
^[0-9]+(.[0-9]{1,3})?$ -
非零的正整数:
^[1-9]\d*$或^([1-9][0-9]*){1,3}$或^\+?[1-9][0-9]*$ -
非零的负整数:
^\-[1-9][]0-9"*$或^-[1-9]\d*$ -
非负整数:
^\d+$ 或 ^[1-9]\d*|0$ -
非正整数:
^-[1-9]\d*|0$或^((-\d+)|(0+))$ -
非负浮点数:
^\d+(\.\d+)?$或^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ -
非正浮点数:
^((-\d+(\.\d+)?)|(0+(\.0+)?))$或^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ -
正浮点数:
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$或^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$ -
负浮点数:
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$ -
浮点数:
^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
校验字符的表达式¶
-
汉字:
^[\u4e00-\u9fa5]{0,}$ -
英文和数字:
^[A-Za-z0-9]+$或^[A-Za-z0-9]{4,40}$ -
长度为 3-20 的所有字符:
^.{3,20}$ -
由 26 个英文字母组成的字符串:
^[A-Za-z]+$ -
由 26 个大写英文字母组成的字符串:
^[A-Z]+$ -
由 26 个小写英文字母组成的字符串:
^[a-z]+$ -
由数字和 26 个英文字母组成的字符串:
^[A-Za-z0-9]+$ -
由数字、26 个英文字母或者下划线组成的字符串:
^\w+$或^\w{3,20}$ -
中文、英文、数字包括下划线:
^[\u4E00-\u9FA5A-Za-z0-9_]+$ -
中文、英文、数字但不包括下划线等符号:
^[\u4E00-\u9FA5A-Za-z0-9]+$或^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$ -
可以输入含有
^%&',;=?$\"等字符:[^%&',;=?$\x22]+ 12禁止输入含有~的字符:[^~\x22]+ -
非打印的特殊字符匹配:
[\u0000-\u001F]
特殊需求表达式¶
-
Email 地址:
^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ -
域名:
[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.? -
InternetURL:
[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ -
手机号码:
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ -
电话号码(“XXX-XXXXXXX”、“XXXX-XXXXXXXX”、“XXX-XXXXXXX”、“XXX-XXXXXXXX”、“XXXXXXX”和“XXXXXXXX”):
^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$ -
国内电话号码(0511-4405222、021-87888822):
\d{3}-\d{8}|\d{4}-\d{7} -
身份证号(15 位、18 位数字):
^\d{15}|\d{18}$ -
短身份证号码(数字、字母 x 结尾):
^([0-9]){7,18}(x|X)?$或^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$ -
帐号是否合法(字母开头,允许 5-16 字节,允许字母数字下划线):
^[a-zA-Z][a-zA-Z0-9_]{4,15}$ -
密码(以字母开头,长度在 6~18 之间,只能包含字母、数字和下划线):
^[a-zA-Z]\w{5,17}$ -
强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在 8-10 之间):
^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$ -
日期格式:
^\d{4}-\d{1,2}-\d{1,2} -
一年的 12 个月(01~09 和 1~12):
^(0?[1-9]|1[0-2])$ -
一个月的 31 天(01~09 和 1~31):
^((0?[1-9])|((1|2)[0-9])|30|31)$ -
钱的输入格式:
- 有四种钱的表示形式我们可以接受:“10000.00” 和 “10,000.00”,和没有“分”的 “10000” 和 “10,000”:
^[1-9][0-9]*$ - 这表示任意一个不以 0 开头的数字,但是,这也意味着一个字符“0”不通过,所以我们采用下面的形式:
^(0|[1-9][0-9]*)$ - 一个0或者一个不以0开头的数字。我们还可以允许开头有一个负号:
^(0|-?[1-9][0-9]*)$ - 这表示一个0或者一个可能为负的开头不为0的数字。让用户以0开头好了。把负号的也去掉,因为钱总不能是负的吧。下面我们要加的是说明可能的小数部分:
^[0-9]+(.[0-9]+)?$ - 必须说明的是,小数点后面至少应该有 1 位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:
^[0-9]+(.[0-9]{2})?$ - 这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:
^[0-9]+(.[0-9]{1,2})?$ - 这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:
^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$ - 1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:
^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
备注:这就是最终结果了,别忘了"
+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里 - 有四种钱的表示形式我们可以接受:“10000.00” 和 “10,000.00”,和没有“分”的 “10000” 和 “10,000”:
-
xml文件:
^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$ -
中文字符的正则表达式:
[\u4e00-\u9fa5] -
双字节字符:
[^\x00-\xff](包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)) -
空白行的正则表达式:
\n\s*\r(可以用来删除空白行) -
HTML标记的正则表达式:
<(\S*?)[^>]*>.*?<!--\1-->|<.*? />(网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力) -
首尾空白字符的正则表达式:
^\s*|\s*$或(^\s*)|(\s*$)(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式) -
腾讯QQ号:
[1-9][0-9]{4,}(腾讯QQ号从10000开始) -
中国邮政编码:
[1-9]\d{5}(?!\d)(中国邮政编码为6位数字) -
IP地址:
\d+\.\d+\.\d+\.\d+(提取IP地址时有用) -
IP地址:
((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))