Skip to content

Commit d787a0d

Browse files
committed
两点水
1 parent 789dcca commit d787a0d

12 files changed

+508
-2
lines changed

README.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -111,7 +111,7 @@ IT 行业相对于一般传统行业,发展更新速度更快,一旦停止
111111

112112

113113
# 知识点补漏
114-
* [Python 关键字 yield](/Article\supplement\Python关键字yield.md)
114+
* [Python 关键字 yield](/Article/supplement/Python关键字yield.md)
115115

116116

117117
# Python 进阶

SUMMARY.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -82,4 +82,4 @@
8282
* [闭包](/Article/python15/1.md)
8383
* [装饰器](/Article/python16/1.md)
8484
* [知识点补漏](README.md)
85-
- [Python 关键字 yield](/Article\supplement\Python关键字yield.md)
85+
- [Python 关键字 yield](/Article/supplement/Python关键字yield.md)

python14/1.md

Lines changed: 91 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,91 @@
1+
# 初识 Python 正则表达式
2+
3+
正则表达式是一个特殊的字符序列,用于判断一个字符串是否与我们所设定的字符序列是否匹配,也就是说检查一个字符串是否与某种模式匹配。
4+
5+
Python 自 1.5 版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。
6+
7+
下面通过实例,一步一步来初步认识正则表达式。
8+
9+
比如在一段字符串中寻找是否含有某个字符或某些字符,通常我们使用内置函数来实现,如下:
10+
11+
```python
12+
# 设定一个常量
13+
a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'
14+
15+
# 判断是否有 “两点水” 这个字符串,使用 PY 自带函数
16+
17+
print('是否含有“两点水”这个字符串:{0}'.format(a.index('两点水') > -1))
18+
print('是否含有“两点水”这个字符串:{0}'.format('两点水' in a))
19+
```
20+
21+
输出的结果如下:
22+
23+
```txt
24+
是否含有“两点水”这个字符串:True
25+
是否含有“两点水”这个字符串:True
26+
```
27+
28+
那么,如果使用正则表达式呢?
29+
30+
刚刚提到过,Python 给我们提供了 re 模块来实现正则表达式的所有功能,那么我们先使用其中的一个函数:
31+
32+
```python
33+
re.findall(pattern, string[, flags])
34+
```
35+
36+
该函数实现了在字符串中找到正则表达式所匹配的所有子串,并组成一个列表返回,具体操作如下:
37+
38+
```python
39+
40+
import re
41+
42+
# 设定一个常量
43+
a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'
44+
45+
# 正则表达式
46+
47+
findall = re.findall('两点水', a)
48+
print(findall)
49+
50+
if len(findall) > 0:
51+
print('a 含有“两点水”这个字符串')
52+
else:
53+
print('a 不含有“两点水”这个字符串')
54+
55+
```
56+
57+
输出的结果:
58+
59+
```txt
60+
['两点水']
61+
a 含有“两点水”这个字符串
62+
```
63+
64+
从输出结果可以看到,可以实现和内置函数一样的功能,可是在这里也要强调一点,上面这个例子只是方便我们理解正则表达式,这个正则表达式的写法是毫无意义的。为什么这样说呢?
65+
66+
因为用 Python 自带函数就能解决的问题,我们就没必要使用正则表达式了,这样做多此一举。而且上面例子中的正则表达式设置成为了一个常量,并不是一个正则表达式的规则,正则表达式的灵魂在于规则,所以这样做意义不大。
67+
68+
那么正则表达式的规则怎么写呢?先不急,我们一步一步来,先来一个简单的,找出字符串中的所有小写字母。首先我们在 `findall` 函数中第一个参数写正则表达式的规则,其中 `[a-z]` 就是匹配任何小写字母,第二个参数只要填写要匹配的字符串就行了。具体如下:
69+
70+
```python
71+
72+
import re
73+
74+
# 设定一个常量
75+
a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'
76+
77+
# 选择 a 里面的所有小写英文字母
78+
79+
re_findall = re.findall('[a-z]', a)
80+
81+
print(re_findall)
82+
83+
```
84+
85+
输出的结果:
86+
87+
```txt
88+
['t', 'w', 'o', 'w', 'a', 't', 'e', 'r', 'l', 'i', 'a', 'n', 'g', 'd', 'i', 'a', 'n', 's', 'h', 'u', 'i', 'e', 'a', 'd', 'i', 'n', 'g', 'i', 't', 'h']
89+
```
90+
91+
这样我们就拿到了字符串中的所有小写字母了。

python14/2.md

Lines changed: 81 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,81 @@
1+
# 字符集
2+
3+
4+
好了,通过上面的几个实例我们初步认识了 Python 的正则表达式,可能你就会问,正则表达式还有什么规则,什么字母代表什么意思呢?
5+
6+
其实,这些都不急,在本章后面会给出对应的正则表达式规则列表,而且这些东西在网上随便都能 Google 到。所以现在,我们还是进一步加深对正则表达式的理解,讲一下正则表达式的字符集。
7+
8+
字符集是由一对方括号 “[]” 括起来的字符集合。使用字符集,可以匹配多个字符中的一个。
9+
10+
举个例子,比如你使用 `C[ET]O` 匹配到的是 CEO 或 CTO ,也就是说 `[ET]` 代表的是一个 E 或者一个 T 。像上面提到的 `[a-z]` ,就是所有小写字母中的其中一个,这里使用了连字符 “-” 定义一个连续字符的字符范围。当然,像这种写法,里面可以包含多个字符范围的,比如:`[0-9a-fA-F]` ,匹配单个的十六进制数字,且不分大小写。注意了,字符和范围定义的先后顺序对匹配的结果是没有任何影响的。
11+
12+
其实说了那么多,只是想证明,字符集一对方括号 “[]” 里面的字符关系是或关系,下面看一个例子:
13+
14+
```Python
15+
16+
import re
17+
a = 'uav,ubv,ucv,uwv,uzv,ucv,uov'
18+
19+
# 字符集
20+
21+
# 取 u 和 v 中间是 a 或 b 或 c 的字符
22+
findall = re.findall('u[abc]v', a)
23+
print(findall)
24+
# 如果是连续的字母,数字可以使用 - 来代替
25+
l = re.findall('u[a-c]v', a)
26+
print(l)
27+
28+
# 取 u 和 v 中间不是 a 或 b 或 c 的字符
29+
re_findall = re.findall('u[^abc]v', a)
30+
print(re_findall)
31+
32+
```
33+
34+
输出的结果:
35+
36+
```txt
37+
['uav', 'ubv', 'ucv', 'ucv']
38+
['uav', 'ubv', 'ucv', 'ucv']
39+
['uwv', 'uzv', 'uov']
40+
```
41+
42+
在例子中,使用了取反字符集,也就是在左方括号 “[” 后面紧跟一个尖括号 “^”,就会对字符集取反。需要记住的一点是,取反字符集必须要匹配一个字符。比如:`q[^u]` 并不意味着:匹配一个 q,后面没有 u 跟着。它意味着:匹配一个 q,后面跟着一个不是 u 的字符。具体可以对比上面例子中输出的结果来理解。
43+
44+
我们都知道,正则表达式本身就定义了一些规则,比如 `\d`,匹配所有数字字符,其实它是等价于 [0-9],下面也写了个例子,通过字符集的形式解释了这些特殊字符。
45+
46+
```Python
47+
import re
48+
49+
a = 'uav_ubv_ucv_uwv_uzv_ucv_uov&123-456-789'
50+
51+
# 概括字符集
52+
53+
# \d 相当于 [0-9] ,匹配所有数字字符
54+
# \D 相当于 [^0-9] , 匹配所有非数字字符
55+
findall1 = re.findall('\d', a)
56+
findall2 = re.findall('[0-9]', a)
57+
findall3 = re.findall('\D', a)
58+
findall4 = re.findall('[^0-9]', a)
59+
print(findall1)
60+
print(findall2)
61+
print(findall3)
62+
print(findall4)
63+
64+
# \w 匹配包括下划线的任何单词字符,等价于 [A-Za-z0-9_]
65+
findall5 = re.findall('\w', a)
66+
findall6 = re.findall('[A-Za-z0-9_]', a)
67+
print(findall5)
68+
print(findall6)
69+
70+
```
71+
72+
输出结果:
73+
74+
```txt
75+
['1', '2', '3', '4', '5', '6', '7', '8', '9']
76+
['1', '2', '3', '4', '5', '6', '7', '8', '9']
77+
['u', 'a', 'v', '_', 'u', 'b', 'v', '_', 'u', 'c', 'v', '_', 'u', 'w', 'v', '_', 'u', 'z', 'v', '_', 'u', 'c', 'v', '_', 'u', 'o', 'v', '&', '-', '-']
78+
['u', 'a', 'v', '_', 'u', 'b', 'v', '_', 'u', 'c', 'v', '_', 'u', 'w', 'v', '_', 'u', 'z', 'v', '_', 'u', 'c', 'v', '_', 'u', 'o', 'v', '&', '-', '-']
79+
['u', 'a', 'v', '_', 'u', 'b', 'v', '_', 'u', 'c', 'v', '_', 'u', 'w', 'v', '_', 'u', 'z', 'v', '_', 'u', 'c', 'v', '_', 'u', 'o', 'v', '1', '2', '3', '4', '5', '6', '7', '8', '9']
80+
['u', 'a', 'v', '_', 'u', 'b', 'v', '_', 'u', 'c', 'v', '_', 'u', 'w', 'v', '_', 'u', 'z', 'v', '_', 'u', 'c', 'v', '_', 'u', 'o', 'v', '1', '2', '3', '4', '5', '6', '7', '8', '9']
81+
```

python14/3.md

Lines changed: 76 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,76 @@
1+
# 数量词
2+
3+
来,继续加深对正则表达式的理解,这部分理解一下数量词,为什么要用数量词,想想都知道,如果你要匹配几十上百的字符时,难道你要一个一个的写,所以就出现了数量词。
4+
5+
数量词的词法是:{min,max} 。min 和 max 都是非负整数。如果逗号有而 max 被忽略了,则 max 没有限制。如果逗号和 max 都被忽略了,则重复 min 次。比如,`\b[1-9][0-9]{3}\b`,匹配的是 1000 ~ 9999 之间的数字( “\b” 表示单词边界),而 `\b[1-9][0-9]{2,4}\b`,匹配的是一个在 100 ~ 99999 之间的数字。
6+
7+
下面看一个实例,匹配出字符串中 4 到 7 个字母的英文
8+
9+
```Python
10+
import re
11+
12+
a = 'java*&39android##@@python'
13+
14+
# 数量词
15+
16+
findall = re.findall('[a-z]{4,7}', a)
17+
print(findall)
18+
```
19+
20+
输出结果:
21+
22+
```txt
23+
['java', 'android', 'python']
24+
```
25+
26+
注意,这里有贪婪和非贪婪之分。那么我们先看下相关的概念:
27+
28+
29+
贪婪模式:它的特性是一次性地读入整个字符串,如果不匹配就吐掉最右边的一个字符再匹配,直到找到匹配的字符串或字符串的长度为 0 为止。它的宗旨是读尽可能多的字符,所以当读到第一个匹配时就立刻返回。
30+
31+
懒惰模式:它的特性是从字符串的左边开始,试图不读入字符串中的字符进行匹配,失败,则多读一个字符,再匹配,如此循环,当找到一个匹配时会返回该匹配的字符串,然后再次进行匹配直到字符串结束。
32+
33+
上面例子中的就是贪婪的,如果要使用非贪婪,也就是懒惰模式,怎么呢?
34+
35+
如果要使用非贪婪,则加一个 `?` ,上面的例子修改如下:
36+
37+
```Python
38+
import re
39+
40+
a = 'java*&39android##@@python'
41+
42+
# 贪婪与非贪婪
43+
44+
re_findall = re.findall('[a-z]{4,7}?', a)
45+
print(re_findall)
46+
47+
```
48+
49+
输出结果如下:
50+
51+
```txt
52+
['java', 'andr', 'pyth']
53+
```
54+
55+
从输出的结果可以看出,android 只打印除了 andr ,Python 只打印除了 pyth ,因为这里使用的是懒惰模式。
56+
57+
当然,还有一些特殊字符也是可以表示数量的,比如:
58+
59+
60+
> `?`:告诉引擎匹配前导字符 0 次或 1 次
61+
>
62+
> `+`:告诉引擎匹配前导字符 1 次或多次
63+
>
64+
> `*`:告诉引擎匹配前导字符 0 次或多次
65+
66+
67+
把这部分的知识点总结一下,就是下面这个表了:
68+
69+
| 贪 婪 | 惰 性 | 描 述 |
70+
| ------- | ------- | ----------------------------- |
71+
|| ?? | 零次或一次出现,等价于{0,1} |
72+
| + | +? | 一次或多次出现 ,等价于{1,} |
73+
| * | *| 零次或多次出现 ,等价于{0,} |
74+
| {n} | {n}? | 恰好 n 次出现 |
75+
| {n,m} | {n,m}? | 至少 n 次枝多 m 次出现 |
76+
| {n,} | {n,}? | 至少 n 次出现 |

python14/4.md

Lines changed: 18 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,18 @@
1+
# 边界匹配符和组
2+
3+
将上面几个点,就用了很大的篇幅了,现在介绍一些边界匹配符和组的概念。
4+
5+
一般的边界匹配符有以下几个:
6+
7+
| 语法 | 描述 |
8+
| ---- | ------------------------------------------------ |
9+
| ^ | 匹配字符串开头(在有多行的情况中匹配每行的开头) |
10+
| $ | 匹配字符串的末尾(在有多行的情况中匹配每行的末尾) |
11+
| \A | 仅匹配字符串开头 |
12+
| \Z | 仅匹配字符串末尾 |
13+
| \b | 匹配 \w 和 \W 之间 |
14+
| \B | [^\b] |
15+
16+
分组,被括号括起来的表达式就是分组。分组表达式 `(...)` 其实就是把这部分字符作为一个整体,当然,可以有多分组的情况,每遇到一个分组,编号就会加 1 ,而且分组后面也是可以加数量词的。
17+
18+
此处本应有例子,考虑到篇幅问题,就不贴了

python14/5.md

Lines changed: 56 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,56 @@
1+
# re.sub
2+
3+
实战过程中,我们很多时候需要替换字符串中的字符,这时候就可以用到 `def sub(pattern, repl, string, count=0, flags=0) ` 函数了,re.sub 共有五个参数。其中三个必选参数:pattern, repl, string ; 两个可选参数:count, flags .
4+
5+
具体参数意义如下:
6+
7+
| 参数 | 描述 |
8+
| ------- | ------------------------------------------------------------- |
9+
| pattern | 表示正则中的模式字符串 |
10+
| repl | repl,就是replacement,被替换的字符串的意思 |
11+
| string | 即表示要被处理,要被替换的那个 string 字符串 |
12+
| count | 对于pattern中匹配到的结果,count可以控制对前几个group进行替换 |
13+
| flags | 正则表达式修饰符 |
14+
15+
具体使用可以看下下面的这个实例,注释都写的很清楚的了,主要是注意一下,第二个参数是可以传递一个函数的,这也是这个方法的强大之处,例如例子里面的函数 `convert` ,对传递进来要替换的字符进行判断,替换成不同的字符。
16+
17+
```python
18+
#!/usr/bin/env python3
19+
# -*- coding: UTF-8 -*-
20+
21+
import re
22+
23+
a = 'Python*Android*Java-888'
24+
25+
# 把字符串中的 * 字符替换成 & 字符
26+
sub1 = re.sub('\*', '&', a)
27+
print(sub1)
28+
29+
# 把字符串中的第一个 * 字符替换成 & 字符
30+
sub2 = re.sub('\*', '&', a, 1)
31+
print(sub2)
32+
33+
34+
# 把字符串中的 * 字符替换成 & 字符,把字符 - 换成 |
35+
36+
# 1、先定义一个函数
37+
def convert(value):
38+
group = value.group()
39+
if (group == '*'):
40+
return '&'
41+
elif (group == '-'):
42+
return '|'
43+
44+
45+
# 第二个参数,要替换的字符可以为一个函数
46+
sub3 = re.sub('[\*-]', convert, a)
47+
print(sub3)
48+
```
49+
50+
输出的结果:
51+
52+
```txt
53+
Python&Android&Java-888
54+
Python&Android*Java-888
55+
Python&Android&Java|888
56+
```

0 commit comments

Comments
 (0)