首页 > 编程语言 > 正则表达式基础知识
2018
04-28

正则表达式基础知识

  ECMAScript 3 开始支持正则表达式,其语法和 Perl 语法很类似,一个完整的正则表达式结构如下:

var expression = / pattern / flags ;

  其中,模式(pattern)部分可以是任何简单或复杂的正则表达式,可以包含字符类、限定符、分组、向前查找以及反向引用。

  每个正则表达式都可带有一或多个标志(flags),用以标明正则表达式的行为,正则表达式支持下列 3 个标志:

g: 表示全局(global)模式,即模式将被应用于所有字符串,而非在发现第一个匹配项时立即停止;

i : 表示不区分大小写(case-insensitive)模式,即在确定匹配项时忽略模式与字符串的大小写;

m:表示多行(multiline)模式,即在到达一行文本末尾时还会继续查找下一行中是否存在与模式匹配的项。

  如果多个标志同时使用时,则写成:gmi 。

  正则表达式的创建有两种方式: new RegExp(expression) 和 直接字面量。

// 使用直接字面量创建
var exp1 = /(^\s+)|(\s+$)/g;
// 使用RegExp对象创建
var exp2 = new RegExp('(^\\s+)|(\\s+$)', 'g');  

  exp1 和 exp2 是两个完全等价的正则表达式,需要注意的是,传递给 RegExp 构造函数的两个参数都是字符串,不能把正则表达式字面量传递给 RegExp 构造函数。

  与其他语言中的正则表达式类似,模式中使用的所有元字符都必须转义。正则表达式中的元字符包括:

( [ { \ ^ $ | ) ? * + .] }

  这些元字符在正则表达式中都有一或多种特殊用途,因此如果想要匹配字符串中包含的这些字符,就必须对它们进行转义。

// 匹配 .docx 
var exp = /\.docx/gi ; 

  由于 RegExp 构造函数的模式参数是字符串,所以在某些情况下要对字符进行双重转义。所有元字符都必须双重转义,那些已经转义过的字符也是如此。 

// 对 \. 再次转义
var exp = new RegExp('\\.docx', 'gi');

//匹配 \n 
var exp1 = /\\n/g; //对\n中的\转义
var exp2 = new RegExp('\\\\n', 'g'); // 对 \\n 再次转义

编程技巧