刘沙河 刘沙河
首页
  • Go语言基础

    • 数据类型
    • 反射
    • Go指针
  • Go语言进阶

    • go泛型
    • go条件编译
    • cgo教程
    • Go协程调度原理及GPM模型
    • Go内存管理
    • Go垃圾回收机制
    • Go语言内存对齐
  • Go语言实现原理

    • channel 实现原理
    • slice 实现原理
    • map 实现原理
    • sync.Mutex 实现原理
    • 乐观锁CAS 实现原理
    • singlefight 实现原理
  • gin框架

    • gin中间件原理
    • gin路由原理
  • gorm

    • GORM介绍和使用
    • GORM_CURD操作指南
  • go测试

    • benchmark基准测试
    • pprof 性能分析
  • python进阶

    • Numpy&Pandas
    • celery分布式任务队列
  • Django

    • Django 常见命令
    • middleware中间件
    • Django缓存系统
    • Django信号系统
    • Django REST Framework
  • Flask

    • Flask基础知识总结
    • Flask-SQLAlchemy
  • 爬虫

    • aiohttp
    • scrapy框架
  • Mysql

    • Mysql存储引擎和索引
    • MySQL主从复制
    • Mysql读写分离
    • 数据库分库分表
    • Mysql锁
    • Mysql事务和MVCC原理
    • 分库分表带来的读扩散问题
  • Redis

    • redis基础和数据类型
    • redis主从架构
    • redis哨兵架构
    • redis集群模式
    • 如何保证缓存和数据库双写一致
    • redis底层数据结构
    • redis分布式锁
  • Elasticsearch

    • es基本概念
    • es基础语法
    • es倒排索引
  • etcd

    • Go操作etcd
    • Raft原理
    • etcd分布式锁
  • kafka

    • 消息队列MQ总结
    • kafka 概述及原理
    • kafka 消费问题记录
    • 零拷贝技术
    • kafka分区规范
  • RabbitMQ

    • rabbitMQ基础
    • Go操作rabbitmq
  • RocketMQ

    • 可靠消息队列 rocketMQ
  • Http&Https

    • http&https
    • TCP和UDP
    • Ping 原理
  • RPC

    • RPC初识
    • grpc初识和实现
  • gRPC

    • grpc 初识
    • grpc 上下文 metadata
    • grpc 健康检查
    • grpc keepalive
    • grpc 命名解析
    • grpc 中间件&拦截器
    • grpc 负载均衡
    • grpc 身份认证
    • grpc 超时重试
    • grpc 链路追踪
    • grpc-gw将gRPC转RESTfu api
    • grpc-gw自定义选项
  • protobuf

    • protobuf 进阶
    • protobuf 编码原理
  • Docker

    • Docker基础
    • Docker常用命令
    • Dockerfile
    • Docker-Compose
    • Docker多阶段构建
    • Docker Config 教程
    • Docker Swarm 教程
    • Docker Stack 教程
    • Docker Buildx 教程
  • k8s

    • k8s 基础概念
    • k8s 集群架构
    • k8s 工作负载
    • Pod 网络
    • Service 网络
    • 外部接入网络
    • 一张图搞懂k8s各种pod
    • k8s 存储抽象
    • mac快速启动k8s
    • 自制申威架构k8s-reloader
  • go-kit

    • go-kit初识
    • go-kit启动http服务
    • go-kit集成gin启动服务
    • go-kit集成grpc和protobuf
    • go-kit中间件
    • go-kit服务注册发现与负载均衡
    • go-kit限流和熔断
    • go-kit链路追踪
    • go-kit集成Prometheus
  • 设计模式

    • 初识设计模式
    • 创建型模式
    • 结构型模式
    • 行为模式
  • 数据结构

    • 时间轮
    • 堆、双向链表、环形队列
    • 队列:优先队列
    • 队列:延迟队列
  • 算法

    • 递归算法
    • 枚举算法
    • 动态规划
    • 回溯算法
    • 分治算法
    • 贪心算法
    • LRU和LFU
    • 一致性哈希

花开半夏,半夏花开
首页
  • Go语言基础

    • 数据类型
    • 反射
    • Go指针
  • Go语言进阶

    • go泛型
    • go条件编译
    • cgo教程
    • Go协程调度原理及GPM模型
    • Go内存管理
    • Go垃圾回收机制
    • Go语言内存对齐
  • Go语言实现原理

    • channel 实现原理
    • slice 实现原理
    • map 实现原理
    • sync.Mutex 实现原理
    • 乐观锁CAS 实现原理
    • singlefight 实现原理
  • gin框架

    • gin中间件原理
    • gin路由原理
  • gorm

    • GORM介绍和使用
    • GORM_CURD操作指南
  • go测试

    • benchmark基准测试
    • pprof 性能分析
  • python进阶

    • Numpy&Pandas
    • celery分布式任务队列
  • Django

    • Django 常见命令
    • middleware中间件
    • Django缓存系统
    • Django信号系统
    • Django REST Framework
  • Flask

    • Flask基础知识总结
    • Flask-SQLAlchemy
  • 爬虫

    • aiohttp
    • scrapy框架
  • Mysql

    • Mysql存储引擎和索引
    • MySQL主从复制
    • Mysql读写分离
    • 数据库分库分表
    • Mysql锁
    • Mysql事务和MVCC原理
    • 分库分表带来的读扩散问题
  • Redis

    • redis基础和数据类型
    • redis主从架构
    • redis哨兵架构
    • redis集群模式
    • 如何保证缓存和数据库双写一致
    • redis底层数据结构
    • redis分布式锁
  • Elasticsearch

    • es基本概念
    • es基础语法
    • es倒排索引
  • etcd

    • Go操作etcd
    • Raft原理
    • etcd分布式锁
  • kafka

    • 消息队列MQ总结
    • kafka 概述及原理
    • kafka 消费问题记录
    • 零拷贝技术
    • kafka分区规范
  • RabbitMQ

    • rabbitMQ基础
    • Go操作rabbitmq
  • RocketMQ

    • 可靠消息队列 rocketMQ
  • Http&Https

    • http&https
    • TCP和UDP
    • Ping 原理
  • RPC

    • RPC初识
    • grpc初识和实现
  • gRPC

    • grpc 初识
    • grpc 上下文 metadata
    • grpc 健康检查
    • grpc keepalive
    • grpc 命名解析
    • grpc 中间件&拦截器
    • grpc 负载均衡
    • grpc 身份认证
    • grpc 超时重试
    • grpc 链路追踪
    • grpc-gw将gRPC转RESTfu api
    • grpc-gw自定义选项
  • protobuf

    • protobuf 进阶
    • protobuf 编码原理
  • Docker

    • Docker基础
    • Docker常用命令
    • Dockerfile
    • Docker-Compose
    • Docker多阶段构建
    • Docker Config 教程
    • Docker Swarm 教程
    • Docker Stack 教程
    • Docker Buildx 教程
  • k8s

    • k8s 基础概念
    • k8s 集群架构
    • k8s 工作负载
    • Pod 网络
    • Service 网络
    • 外部接入网络
    • 一张图搞懂k8s各种pod
    • k8s 存储抽象
    • mac快速启动k8s
    • 自制申威架构k8s-reloader
  • go-kit

    • go-kit初识
    • go-kit启动http服务
    • go-kit集成gin启动服务
    • go-kit集成grpc和protobuf
    • go-kit中间件
    • go-kit服务注册发现与负载均衡
    • go-kit限流和熔断
    • go-kit链路追踪
    • go-kit集成Prometheus
  • 设计模式

    • 初识设计模式
    • 创建型模式
    • 结构型模式
    • 行为模式
  • 数据结构

    • 时间轮
    • 堆、双向链表、环形队列
    • 队列:优先队列
    • 队列:延迟队列
  • 算法

    • 递归算法
    • 枚举算法
    • 动态规划
    • 回溯算法
    • 分治算法
    • 贪心算法
    • LRU和LFU
    • 一致性哈希
  • Python基础

    • 运算符-while循环
    • 数据类型
    • 知识补充&数据类型列表,元祖
    • 字典
    • 数据类型-集合
    • 深浅拷贝&文件操作
    • 文件操作Ⅱ
    • 函数Ⅰ(基础)
    • 函数Ⅱ(参数&作用域)
    • 函数Ⅲ(内置函数&lambda表达式)
    • 函数Ⅳ(闭包&内置模块)
    • 装饰器&推导式
    • 装饰器(二)&模块(一)
    • 模块(二)
    • 模块(总)
    • 迭代器&生成器
    • 面向对象(一)
    • 面向对象(二)类成员&成员修饰符
    • 面向对象(三)特殊方法
    • 面向对象(四) 约束&反射
    • 正则表达式
    • re模块
      • 1.re模块
      • 2.转义符
      • 3.进阶方法
        • 3.1时间复杂度
        • 3.2空间复杂度
        • 3.3用户体验
      • 4.re模块分组
      • 5.flags
      • 6.爬虫小示例
  • Python进阶

  • Python并发编程

  • Django

  • Flask

  • 爬虫

  • Python
  • Python基础
bigox
2021-03-22
目录

re模块

# 1.re模块

  • re模块本身是用来操作正则表达式,与正则本身没有关系

  • 正则表达式是用来匹配处理字符串的 python 中使用正则表达式需要引入re模块

    如:

    import re #第一步,要引入re模块

  • re.match(pattern表达式规则, string)

    • 从头开始,等同于re.search加上^号

    • 如果不是起始位置匹配成功的话,match()就返回none.

    • 匹配成功re.match方法返回一个匹配的对象,否则返回None。

    import re
    print(re.match('www', 'www.runoob.com'))  # 在起始位置匹配
    print(re.match('com', 'www.runoob.com'))  # 不在起始位置不匹配
    
    1
    2
    3
  • re.search("匹配规则", "要匹配的字符串")

    • 匹配成功re.search方法返回一个匹配的对象,否则返回None。
    • 从头到尾从头匹配字符串中取出第一个符合条件的项.
    • re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
    import re
    ret = re.serch('\d','alex83')
    print(ret)		
    if ret:
        print(ret.group())		#如果返回对象,用group取值
    
    1
    2
    3
    4
    5
  • re.findall("匹配规则", "要匹配的字符串")

    • 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表
    • 如果没有找到匹配的,则返回空列表。
  • re.finditer

    • 读大文件使用finditer节省内存,结果比较多的时候使用
    • 返回值与findall类似 ,返回的是对象
import re
ret = re.finditer('\d','asfjsdf12jidfiewjfi'*200000)      #ret是一个迭代器
for i in ret:					#迭代出来的每一项都是一个对象
    print(i.group())		 #通过group取值即可
1
2
3
4
  • re.compile 编译方法

    • 在同一个正则表达式重复使用多次的时候使用compile能减少使用时间开销
    import re
    s= 'asfjsdf12jidfiewjfi'
    ret = re.compile('\d+')
    r1 = ret.seach('alex83')
    r2 = ret.findall('wusir73')
    
    1
    2
    3
    4
    5
  • 扩展

    #search
    import re
    # ret = re.search("<(?P<tag_name>\w+)>\w+</w+>","<h1>hello</h1>")
    # print(ret.group('tag_name'))
    # print(ret.group())
    ret = re.search("<(?P<tag_name1>\w+)>\w+</\w+>","<h1>hello</h1>")
    #还可以在分组中利用?的形式给分组起名字
    #获取的匹配结果可以直接用group('名字') 拿到对应的值
    print(ret.group('tag_name1')) #结果 :h1
    print(ret.group()) #结果 :<h1>hello</h1>
    
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
  • split 根据正则切割,-

    • 默认不保留切割内容

    • 保留正则中分组内匹配到的内容

# 2.转义符

  • r或者\为转义符

  • 正则表达式中的转义符在python的字符串中也有转义的作用

  • 所有的正则都已在工具中的测试结果为结果,在所有结果前加r

  • \\n匹配\n===>r'\n'

  • \\\\n匹配\\n===>r'\\n'

# 3.进阶方法

# 3.1时间复杂度

  • 效率

# 3.2空间复杂度

  • 内存占用

# 3.3用户体验

  • 体验

# 4.re模块分组

  • findall 遇到分组时,优先显示分组中的内容

  • ?: 取消分组优先展示

    import re
    s1 = '1-2*(60+(-40.35/5)-(-4*3))'
    res=re.compile(r'\d+\.\d+?|(?:\d+)')
    ret=re.findall(res,s1)
    # ret.remove('')
    print(ret)
    
    1
    2
    3
    4
    5
    6
  • 分组编号

    s1 = '<h1>wahaha</h1>'
    s2 = '<a>wahaha ya wahaha</a>'
    import re
    
    ret = re.search('<(\w+)>(.*?)</\w+>',s1)
    print(ret)
    print(ret.group(0))   # group参数默认为0表示取整个正则匹配的结果
    print(ret.group(1))   # 取第一个分组中的内容
    print(ret.group(2))   # 取第二个分组中的内容
    
    1
    2
    3
    4
    5
    6
    7
    8
    9
  • 分组命名

    • (?P<名字>正则表达式)

      s1 = '<h1>wahaha</h1>'
      s2 = '<a>wahaha ya wahaha</a>'
      ret = re.search('<(?P<tag>\w+)>.*?</(?P<tag2>\w+)>',s1)				#(?P<tag>)
      print(ret.group('tag'))
      
      1
      2
      3
      4
  • 引用分组

    • 引用分组 (?P=组名) 这个组中的内容必须完全和之前已经存在的组匹配到的内容一模一样
    s1 = '<h1>wahaha</h1>'
    s2 = '<a>wahaha ya wahaha</a>'
    ret = re.search('<(?P<tag>\w+)>.*?</(?P=tag)>',s1)				#(?P=tag)
    print(ret.group('tag'))
    
    1
    2
    3
    4
#经典例题
#有的时候我们想匹配的内容包含在不相匹配的内容当中,这个时候只需要把不想匹配的先匹配出来,再通过手段去掉
import re
ret=re.findall(r"\d+\.\d+|(\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret)
ret.remove('')
print(ret)
1
2
3
4
5
6
7

# 5.flags

编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等。常用的flags有:

标志 含义
re.S(DOTALL) 使.匹配包括换行在内的所有字符
re.I(IGNORECASE) 使匹配对大小写不敏感
re.L(LOCALE) 做本地化识别(locale-aware)匹配,法语等![img](file:///C:/Users/tina/AppData/Local/YNote/data/heoffer@126.com/15ef610b4afd4cf0aea99402f970595e/19c23298f53f40f1b1d0168871156605.jpg)
re.M(MULTILINE) 多行匹配,影响^和$
re.X(VERBOSE) 该标志通过给予更灵活的格式以便将正则表达式写得更易于理解
re.U 根据Unicode字符集解析字符,这个标志影响\w,\W,\b,\B
#示例
re.compile(pattern,flags=0)

pattern: 编译时用的表达式字符串。

flags 编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等。
1
2
3
4
5
6

# 6.爬虫小示例

![ 1557030053403](C:\Users\big cattle\AppData\Roaming\Typora\typora-user-images\1557030053403.png)

#豆瓣top250爬取

1
2

![1557030477523](C:\Users\big cattle\AppData\Roaming\Typora\typora-user-images\1557030477523.png)

#Python#
上次更新: 2023/04/16, 18:35:33
正则表达式
并发,并行同步,异步阻塞,非阻塞

← 正则表达式 并发,并行同步,异步阻塞,非阻塞→

最近更新
01
go与http代理
05-24
02
自制申威架构k8s-reloader
12-06
03
Docker Buildx 教程
12-01
更多文章>
Theme by Vdoing | Copyright © 2020-2024 小刘扎扎 | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式