正则表达

28 Jan 2020, 18:29

基础

Java基础 / 正则

为什么使用正则?

用于对文本进行复杂处理.(语法规则)

1.基本语法

普通字符
- 字母,数组,汉字,下划线,以及没有特殊定义的标点符号,都是"普通字符”.表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符
简单的转义字符

\n 代表转行符

\t 制表符

\\ 代表\本身

\ ^,\ $,\ . ,\ ?,\ * 等匹配这些字符本身

\n	代表转行符
\t	制表符
\\	代表\本身
\ ^,\ $,\ . ,\ ?,\ * 等	匹配这些字符本身

标准字符集合

能够与多种字符匹配的表达式
注意区分大小写,大写是相反的意思

\d	任意一个数字,0-9中的任意一个
\w	任意一个字母或数字或下划线,也就是A~Z,a~z,0~9,_中任意一个
\s	包括空格,制表符,换行符等空白字符的其中任意一个
.	小数点可以匹配任意一个字符(除了换行符),如果要匹配包括”\n"在内的所有字符,一般用[\s\S]

自定义字符集合:

方括号匹配方式,能够匹配方括号中任意一个字符

[ab5@]	匹配"a"或"b"或"5"或”@”
[^abc]	匹配"a”,“b”,“c”之外的任意一个字符
[f-k]	匹配"f"~"k"之间的任意一个字母
[^A-F0-3]	匹配"A"~"F”,“0"~"3"之外的任意一个字符

正则表达式的特殊符号,被包含到中括号中,则失去特殊意义,除了^,-之外.
标准字符集合,除小数点外,如果被包含于中括号,自定义字符集合将包含该集合.如:
- [\d.-+]将匹配:数字,小数点,+,-

量词

修饰匹配次数的特殊符号

{n}	表达式重复n次
{m,n}	表达式至少重复m次,最多重复n次
{m,}	表达式至少重复m次
?	匹配表达式0次或者1次,相当于{0,1}
+	表达式至少出现1次,相当于{1,}
*	表达式不出现或出现任意次,相当于{0,}

匹配次数中的贪婪模式(匹配字符越多越好,默认!)
匹配次数中的非贪婪模式(匹配字符越少越好,修饰匹配次数的特殊符号后面在加一个”?“号)

2.高级语法

字符边界
- (本组标记匹配的不是字符而是位置,符合某种条件的位置)
^ 与字符串开始的地方匹配

$ 与字符串结束的地方匹配

\b 匹配一个单词边界
- \b匹配这样一个位置 : 前面的字符和后面的字符不全是\w
匹配模式
- IGNORECASE 忽略大小写模式
  - 匹配时忽略大小写
  - 默认情况下,正则表达式是要区分大小写
- SINGLELINE 单行模式
  - 整个文本看作一个字符串,只有一个开头,一个结尾.
  - 使小数点”.“可以匹配包含换行符(\n)在内的任意字符.
- MULTILINE 多行模式
  - 每行都是一个字符串,都有开头和结尾.
  - 在指定了MULTILINE之后,如果需要仅匹配字符串开始和结束的位置,可以使用\A和\Z.

^	与字符串开始的地方匹配
$	与字符串结束的地方匹配
\b	匹配一个单词边界

选择符和分组

表达式	作用
\| 分支结构	左右两边表达式之间"或"关系,匹配左边或者右边
() 捕获组	(1).在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰 (2).取匹配结果的时候,括号中表达式匹配到的内容可以被单独得到 (3).每一对括号会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号.捕获元素编号为零的第一个捕获是由整个正则表达式模式匹配的文本
(?:Expression)	一些表达式中,不得不使用(),但又不需要保存()中子表达式匹配的内容,这时可以用非捕获组来抵消使用()带来的副作用

反向引用(\nnn)
- 每一对()会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号.
  - 通过反向引用,可以对分组已捕获的字符串进行引用

预搜索(零宽断言)

只进行子表达式的匹配,匹配内容不计入最终的匹配结果,是零宽度
这个位置应该符合某个条件.判断当前位置的前后字符,是否符合指定条件,但不匹配前后的字符.是对位置的匹配.
正则表达式匹配过程中,如果子表达式匹配到的是字符内容,而非位置,并被保存到最终的匹配结果中,那么就人为这个子表达式是占有字符的;如果子表达式匹配的仅仅是位置,或者匹配的内容并不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的.占有字符还是零宽度,是针对匹配的内容是否保存到最终的匹配结果中而言.

(?=exp)	断言自身出现的位置的后面能匹配表达式exp
(?<=exp)	断言自身出现的位置的前面能匹配表达式exp
(?!exp)	断言此位置的后面不能匹配表达式exp
(?<!exp)	断言此位置的前面不能匹配表达式exp

练习01(电话号码验证)
- 1.电话号码由数字和”_“构成.
- 2.电话号码为7到8位.
- 3.如果电话号码中包含区号,那么区号位三位或四位,首位是0.
- 4.区号用”_“和其他部分隔开
- 5.移动电话号码为11位
- 6.11位移动电话号码的第一位和第二位为"13”,“15”,“18”
  
  010-8888999/1333444445555 = (0\d{2,3}-\d{7,8})|(1[35789]\d{9})
练习02(电子邮箱验证)

1312579818@qq.com.cn = [\w \ -]+@[a-z0-9A-Z]+(\ .[a-zA-Z]{2,3}){1,2}

首先匹配字母数字下划线和-多位;然后@加匹配大小写字母和数字多位;点转义字符大小写2到3位一共整个(\ .[a-zA-Z]{2,3})为1到2次;

常用正则别表

匹配中文字符	[\u4e00-\u9fa5]
匹配空白行	\n\s*\r
匹配HTML标记	<(\S?)[ ^>] >. ?</\1>\|<. ?/>
匹配首尾空白字符	^\s\|\s $
匹配Email地址	\w+([-+.]\w+)@\w+([-.]\w+) \ .\w+([-.]\w+) *
匹配网址URL	[a-zA-Z]+://[ ^\s]*
匹配国内电话号码	\d{3}-\d{8}\|\d{4}-\d{7}
匹配腾讯QQ号	[1-9] [0-9]{4,}
匹配中国邮政编码	[1-9]\d{5}(?!\d)
匹配身份证	\d{15}\|\d{18}
匹配IP地址	\d+\ .\d+\ .\d+\ .\d+

demo

//匹配
public class Demo01{
    public static void main(String[] args){
        //在整个字符串:asfasadwa02d1689,是否符合指定的正则表达式:\w+
        //表达式对象
        Pattern p = Pattern.compile("\\w+");
        //创建Matcher对象
        Matcher m = p.matcher("asfasadwa02d1689");
        Boolean result = m.matches();
        sout(result);//true
    }
}

//分组输出
public class Demo02{
    public static void main(String[] args){
        //表达式对象
        Pattern p = Pattern.compile("([a-z]+)([0-9]+)");
        //创建Matcher对象
        Matcher m = p.matcher("aa332**ssd445*sds223");
        //分组输出
        while(m.find()){
          sout(m.group()); //aa332
            sout(m.group(1));//aa
            sout(m.group(2));//332
        }
    }
}

//分割字符串
public class Demo02{
    public static void main(String[] args){
        String str = "a8948b151c36";
        String arrs = str.split("\\d+");
        sout(Arrays.toString(arrs));
    }
}

1.基本语法

普通字符

简单的转义字符

标准字符集合

自定义字符集合:

量词

2.高级语法

字符边界

匹配模式

选择符和分组

反向引用(\nnn)

预搜索(零宽断言)

练习01(电话号码验证)

练习02(电子邮箱验证)

常用正则别表

demo