chrome 前端 linux 服务器开发语言 shell中的正则表达式---RE

忘仔悠悠糖博客 2024-05-15 1 0

shell中的正则表达式—RE

正则表达式（Regular Expression，简称regex或RE）是一种用于匹配字符串的强大工具。在shell脚本中，我们可以使用正则表达式来处理文本数据，例如查找、替换和分割字符串等。本教程将详细介绍shell中的正则表达式的基本概念、语法和常用操作。

基本概念

正则表达式是由字符和特殊符号组成的模式，用于描述字符串的特征。在shell脚本中，我们通常使用grep命令来执行正则表达式的匹配操作。

元字符

正则表达式中有一些特殊的字符，称为元字符，它们具有特殊的含义。在shell脚本中，我们需要对这些元字符进行转义，以便正确地匹配字符串。以下是一些常用的元字符：

.：匹配任意单个字符（除了换行符）

^：匹配字符串的开头

$：匹配字符串的结尾

*：匹配前面的子表达式零次或多次

+：匹配前面的子表达式一次或多次

?：匹配前面的子表达式零次或一次

{m,n}：匹配前面的子表达式m到n次

[]：定义一个字符集合，匹配其中的任意一个字符

()：定义一个分组，用于对子表达式进行组合或引用

|：表示或，匹配两个子表达式中的一个

常用操作在shell脚本中，我们可以使用grep命令来进行正则表达式的匹配操作。以下是一些常用的grep命令选项：

-i：忽略大小写

-v：显示不匹配的行

-n：显示匹配行的行号

-c：显示匹配行的数量

-l：显示包含匹配行的文件名

-E：使用扩展正则表达式（支持更多的元字符和语法）

代码块案例以下是一些使用正则表达式的shell脚本代码块案例：

查找字符串

#查找包含"hello"的行

grep "hello" file.txt

替换字符串

#将所有的"foo"替换为"bar"

sed 's/foo/bar/g' file.txt > output.txt

分割字符串

# 使用空格分割字符串，并存储到数组中

IFS=' ' read -ra words <<< "$str"

验证邮箱地址

# 验证邮箱地址是否符合格式要求（用户名@域名）

if [[ $email =~ ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$ ]]; then

echo "邮箱地址有效"

else

echo "邮箱地址无效"

更多细节操作锚点和边界符

在正则表达式中，我们可以使用锚点和边界符来限制匹配的范围。以下是一些常用的锚点和边界符：

\A：匹配字符串的开头（锚点）

\b：匹配单词边界（边界符）

\B：匹配非单词边界（边界符）

z：匹配字符串的结尾（锚点）

\Z：如果字符串以换行符结束，匹配换行符之前的位置（锚点）

C：如果字符串以换行符结束，匹配换行符之后的位置（锚点）

5.2 预定义字符类和反向引用

在正则表达式中，我们可以使用预定义字符类和反向引用来简化模式。以下是一些常用的预定义字符类和反向引用：

[:alnum:]：匹配字母和数字字符（等价于[a-zA-Z0-9]）

[:alpha:]：匹配字母字符（等价于[a-zA-Z]）

[:digit:]：匹配数字字符（等价于[0-9]）

[:lower:]：匹配小写字母字符（等价于[a-z]）

[:upper:]：匹配大写字母字符（等价于[A-Z]）

[:space:]：匹配空白字符（包括空格、制表符、换行符等）

d：匹配数字字符（等价于[0-9]）

\w：匹配字母、数字或下划线字符（等价于[a-zA-Z0-9_]）

s：匹配空白字符（等价于[[:space:]]）

\D：匹配非数字字符（等价于[^0-9]）

\W：匹配非字母、非数字和非下划线字符（等价于[^a-zA-Z0-9_]）

\1、2、...、\9：反向引用，表示与第1、2、...、9个捕获组相匹配的内容（需要使用圆括号进行分组）

多选结构和其他高级功能

在正则表达式中，我们可以使用多选结构和其他高级功能来处理更复杂的模式。以下是一些常用的多选结构和高级功能：

(?:)：非捕获分组，用于分组但不保存捕获的内容（类似于匿名分组）

(?=)：正向肯定预查，表示后面的内容必须满足指定的模式，但不包括在捕获的内容中（类似于正向前瞻断言）

(?!)：正向否定预查，表示后面的内容不能满足指定的模式，但不包括在捕获的内容中（类似于正向负向前瞻断言）

(?<)、(?>)、(?<=)、(?

零宽断言

在正则表达式中，我们可以使用零宽断言来匹配一个位置，但不包括该位置的字符。以下是一些常用的零宽断言：

(?=)：正向肯定预查，表示后面的内容必须满足指定的模式，但不包括在捕获的内容中（类似于正向前瞻断言）

(?!)：正向否定预查，表示后面的内容不能满足指定的模式，但不包括在捕获的内容中（类似于正向负向前瞻断言）

(?<=)：正向后顾预查，表示前面的内容必须满足指定的模式，但不包括在捕获的内容中（类似于正向后顾断言）

贪婪和懒惰匹配

在正则表达式中，我们可以使用贪婪和懒惰匹配来控制匹配的强度。默认情况下，grep命令使用的是贪婪匹配，即尽可能多地匹配字符。如果我们想要进行懒惰匹配，可以使用?元字符。以下是一些例子：

# 贪婪匹配

echo "hello world" | grep -o "he.*"

# 输出：hell

# 懒惰匹配

echo "hello world" | grep -o "he.*?"

# 输出：h

转义字符

在正则表达式中，有些字符具有特殊的含义，我们需要使用转义字符来表示它们。以下是一些常用的转义字符：

\.：匹配点号（.）本身

\^：匹配脱字符（^）本身

\$：匹配美元符号（$）本身

\|：匹配竖线（|）本身

\[、\]、\{、\}、$、$、\+、\*、\?、\.、^、\$、\|、\&、\=、\!、\:、\\、\;、\s、\d、\D、\w、W等：匹配相应的特殊字符或字符类本身

多行模式

在正则表达式中，我们可以使用多行模式来处理跨越多行的文本。在多行模式下，点号（.）可以匹配换行符，而不仅仅是单个字符。以下是一些使用多行模式的例子：

# 使用多行模式查找包含"hello"的行

grep -P "hello" file.txt

自定义选项

在grep命令中，我们可以使用自定义选项来调整正则表达式的行为。以下是一些常用的自定义选项：

-E：使用扩展正则表达式（支持更多的元字符和语法）

-i：忽略大小写

-v：显示不匹配的行

-n：显示匹配行的行号

-c：显示匹配行的数量

-l：显示包含匹配行的文件名

-q：静默模式，不输出任何内容，仅返回匹配结果的状态码（0表示成功，1表示失败）

正则表达式的分组和捕获

在正则表达式中，我们可以使用括号来对字符进行分组，并使用捕获组来提取匹配的内容。以下是一些例子：

# 分组

echo "hello world" | grep -o "(he).*(lo)"

# 输出：hellolo

# 捕获组

echo "hello world" | grep -o "(he).*(lo)" | cut -d' ' -f1

# 输出：he

正则表达式的替换

在正则表达式中，我们可以使用sed命令来进行替换操作。以下是一些例子：

# 替换字符串中的"world"为"earth"

echo "hello world" | sed 's/world/earth/g'

# 输出：hello earth

# 替换数字为对应的英文单词

echo "1234567890" | sed 's/$[0-9]\{1,\}$/number \1/g'

# 输出：number 1 number 2 number 3 number 4 number 5 number 6 number 7 number 8 number 9 number 0

正则表达式的引用

在正则表达式中，我们可以使用反斜杠（\）来引用特殊字符或字符类本身。以下是一些例子：

# 引用点号（`.`）表示任意字符

echo "hello world" | grep -o "\."

# 输出：h e l l o w o r l d

# 引用竖线（`|`）表示或运算符

echo "apple|banana|cherry" | grep -o "a.*e"

# 输出：apple aple banana apple

正则表达式的锚点

在正则表达式中，我们可以使用锚点来指定匹配的位置。以下是一些常用的锚点：

^：匹配行的开头

$：匹配行的结尾

\A：匹配文本的开头

\Z：匹配文本的结尾

\b：匹配单词边界（单词的开头或结尾）

\B：匹配非单词边界（单词内部的字符）

\G：匹配上一次匹配结束的位置

\n：匹配换行符

\u：匹配Unicode字符

\U：匹配Unicode字符（大写形式）

\w：匹配字母、数字或下划线字符

\W：匹配非字母、数字或下划线字符

\s：匹配空白字符（包括空格、制表符、换行符等）

\S：匹配非空白字符

\d：匹配数字字符

\D：匹配非数字字符

\t：匹配制表符

\v：匹配垂直制表符（垂直制表符与水平制表符不同）

\x：匹配十六进制数表示的字符

结尾

以上就是关于正则表达式的一些基本认识和使用技巧，希望对你有所帮助。一键三连拜谢！

夸智网

chrome 前端 linux 服务器开发语言 shell中的正则表达式---RE

开发语言 python re模块正则表达式

柚子快报激活码778899分享：linux 运维正则表达式

发表评论取消回复

夸智网

chrome 前端 linux 服务器 开发语言 shell中的正则表达式---RE

开发语言 python re模块 正则表达式

柚子快报激活码778899分享：linux 运维 正则表达式

相关文章

发表评论取消回复

chrome 前端 linux 服务器开发语言 shell中的正则表达式---RE

开发语言 python re模块正则表达式

柚子快报激活码778899分享：linux 运维正则表达式