分享

JAVA正则表达式

 老年图书馆 2011-11-24

JAVA正则表达式-捕获组与非捕获组

 

Java捕获组与非捕获组的问题困扰了我一阵子,下面是我弄明白后的笔记:

 

先看例子:

 

Java代码  收藏代码
  1. import java.util.regex.Matcher;  
  2. import java.util.regex.Pattern;  
  3.   
  4. public class PatternTest {  
  5.   
  6.     public static void main(String[] args) {  
  7.         String text = "<textarea rows=\"20\" cols=\"70\">nexus maven repository index properties updating index central</textarea>";  
  8.         String reg = "<textarea.*?>.*?</textarea>";  
  9.         Pattern p = Pattern.compile(reg);  
  10.         Matcher m = p.matcher(text);  
  11.         while (m.find()) {  
  12.             System.out.println(m.group());  
  13.         }  
  14.     }  
  15.   
  16. }  

 

  运行结果:

 

Java代码  收藏代码
  1. <textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea>  

 

 

现在,如果我只想匹配到<textarea>内的文本内容即“nexus maven repository index properties updating index central”,怎么做呢?这时候就要用到捕获组了。上述代码中“<textarea.*?>.*?</textarea>”最中间的“.*?”是匹配内容的正则表达式,只需要将它用括号括起来,就是一个捕获组了。看代码:

 

Java代码  收藏代码
  1. import java.util.regex.Matcher;  
  2. import java.util.regex.Pattern;  
  3.   
  4. public class PatternTest {  
  5.   
  6.     public static void main(String[] args) {  
  7.         String text = "<textarea rows=\"20\" cols=\"70\">nexus maven repository index properties updating index central</textarea>";  
  8.         //下面的正则表达式中共有四个捕获组:(<textarea.*?>)、(.*?)、(</textarea>)和整个匹配到的内容  
  9.         String reg = "(<textarea.*?>)(.*?)(</textarea>)";    
  10.         Pattern p = Pattern.compile(reg);  
  11.         Matcher m = p.matcher(text);  
  12.         while (m.find()) {  
  13.             System.out.println(m.group(0)); // 整个匹配到的内容  
  14.             System.out.println(m.group(1)); // (<textarea.*?>)  
  15.             System.out.println(m.group(2)); // (.*?)  
  16.             System.out.println(m.group(3)); // (</textarea>)  
  17.         }  
  18.     }  
  19. }  

 

  运行结果:

 

Java代码  收藏代码
  1. <textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea>  
  2. <textarea rows="20" cols="70">  
  3. nexus maven repository index properties updating index central  
  4. </textarea>  

 

  从上述代码得出结论:正则表达式中每个"()"内的部分算作一个捕获组,每个捕获组都有一个编号,从1,2...,编号0代表整个匹配到的内容。

至于非捕获组,只需要将捕获组中"()"变为"(?:)"即可,代码说话:

Java代码  收藏代码
  1. import java.util.regex.Matcher;  
  2. import java.util.regex.Pattern;  
  3.   
  4. public class PatternTest {  
  5.   
  6.     public static void main(String[] args) {  
  7.         String text = "<textarea rows=\"20\" cols=\"70\">nexus maven repository index properties updating index central</textarea>";  
  8.         // 下面的正则表达式中共有二个捕获组:(.*?)和整个匹配到的内容,两个非捕获组:(?:</textarea>)和(?:<textarea.*?>)  
  9.         String reg = "(?:<textarea.*?>)(.*?)(?:</textarea>)";  
  10.         Pattern p = Pattern.compile(reg);  
  11.         Matcher m = p.matcher(text);  
  12.         while (m.find()) {  
  13.             System.out.println(m.group(0)); // 整个匹配到的内容  
  14.             System.out.println(m.group(1)); // (.*?)  
  15.         }  
  16.     }  
  17. }  

 运行结果:

Java代码  收藏代码
  1. <textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea>  
  2. nexus maven repository index properties updating index central  
 如果试图运行:System.out.println(m.group(2));将会抛出异常,因为不存在编号为2的捕获组。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多