🔬
OpenResty 最佳实践
  • 序
  • 入门篇
  • Lua 入门
    • Lua 简介
    • Lua 环境搭建
    • Lua 编辑器选择
    • 基础数据类型
    • 表达式
    • 控制结构
      • if/else
      • while
      • repeat
      • for
      • break,return 和 goto
    • Lua 函数
      • 函数的定义
      • 函数的参数
      • 函数返回值
      • 全动态函数调用
    • 模块
    • String 库
    • Table 库
    • 日期时间函数
    • 数学库函数
    • 文件操作
  • Lua 高阶
    • 元表
    • 面向对象编程
    • 局部变量
    • 判断数组大小
    • 非空判断
    • 正则表达式
    • 虚变量
    • 抵制使用 module() 定义模块
    • 调用代码前先定义函数
    • 点号与冒号操作符的区别
    • module 是邪恶的
    • FFI
    • 什么是 JIT
  • Nginx
    • Nginx 新手起步
    • location 匹配规则
    • 静态文件服务
    • 日志
    • 反向代理
    • 负载均衡
    • 陷阱和常见错误
  • OpenResty
    • 环境搭建
      • Windows 平台
      • CentOS 平台
      • Ubuntu 平台
      • Mac OS X 平台
    • Hello World
    • 与其他 location 配合
    • 获取 uri 参数
    • 获取请求 body
    • 输出响应体
    • 日志输出
    • 简单 API Server 框架
    • 使用 Nginx 内置绑定变量
    • 子查询
    • 不同阶段共享变量
    • 防止 SQL 注入
    • 如何发起新 HTTP 请求
    • 如何完成 bit 操作
      • 一,复习二进制补码
      • 二,复习位运算
      • 三,LuaJIT 和 Lua BitOp Api
      • 四,位运算算法实例
      • 五,Lua BitOp 的安装
  • LuaRestyRedisLibrary
    • 访问有授权验证的 Redis
    • select+set_keepalive 组合操作引起的数据读写错误
    • redis 接口的二次封装(简化建连、拆连等细节)
    • redis 接口的二次封装(发布订阅)
    • pipeline 压缩请求数量
    • script 压缩复杂请求
    • 动态生成的 lua-resty-redis 模块方法
  • LuaCjsonLibrary
    • json 解析的异常捕获
    • 稀疏数组
    • 空 table 编码为 array 还是 object
  • PostgresNginxModule
    • 调用方式简介
    • 不支持事务
    • 超时
    • 健康监测
    • SQL 注入
  • LuaNginxModule
    • 执行阶段概念
    • 正确的记录日志
    • 热装载代码
    • 阻塞操作
    • 缓存
    • sleep
    • 定时任务
    • 禁止某些终端访问
    • 请求返回后继续执行
    • 调试
    • 请求中断后的处理
    • 我的 lua 代码需要调优么
    • 变量的共享范围
    • 动态限速
    • shared.dict 非队列性质
    • 正确使用长链接
    • 如何引用第三方 resty 库
    • 典型应用场景
    • 怎样理解 cosocket
    • 如何安全启动唯一实例的 timer
    • 如何正确的解析域名
  • LuaRestyDNSLibrary
    • 使用动态 DNS 来完成 HTTP 请求
  • LuaRestyLock
    • 缓存失效风暴
  • OpenResty 与 SSL
    • HTTPS 时代
    • 动态加载证书和 OCSP stapling
    • TLS session resumption
  • 测试
    • 代码静态分析
    • 单元测试
    • 代码覆盖率
    • API 测试
    • 性能测试
    • 持续集成
    • 灰度发布
      • 分流引擎设计
      • 控制台开发
      • 向运维平台发展
  • Web 服务
    • API 的设计
    • 数据合法性检测
    • 协议无痛升级
    • 代码规范
    • 连接池
    • C10K 编程
    • TIME_WAIT 问题
    • 与 Docker 使用的网络瓶颈
  • 火焰图
    • 什么是火焰图
    • 什么时候使用
    • 如何安装火焰图生成工具
    • 如何定位问题
    • 拓展阅读
    • FAQ
Powered by GitBook
On this page
  • POSIX 规范
  • 性能对比
  • ngx.re.* 中的选项:
  • Lua 正则简单汇总
  • 常用的正则函数
Edit on GitHub
  1. Lua 高阶

正则表达式

POSIX 规范

在 OpenResty 中,同时存在两套正则表达式规范:Lua 语言的规范和 ngx.re.* 的规范,即使您对 Lua 语言中的规范非常熟悉,我们 强烈建议不使用 Lua 中的正则表达式。

  • 一是因为 Lua 中正则表达式的性能并不如 ngx.re.* 中的正则表达式优秀;

  • 二是 Lua 中的正则表达式并 不符合 POSIX 规范,而 ngx.re.* 中实现的是标准的 POSIX 规范,后者明显更具备通用性。

性能对比

Lua 中的正则表达式与 Nginx 中的正则表达式相比,有 5% - 15% 的性能损失,原因如下:

  • Lua 将表达式编译成 Pattern 之后,并不会将 Pattern 缓存,而是每次使用都重新编译一遍,潜在地降低了性能。

ngx.re.* 中的 o 选项,指明该参数,被编译的 Pattern 将会在工作进程中缓存,并且被当前工作进程的每次请求所共享。Pattern 缓存的上限值通过 lua_regex_cache_max_entries 来修改,它的默认值为1024。

ngx.re.* 中的选项:

  • ngx.re.* 中的 o 选项,若指明该参数,被编译的 Pattern 将会在工作进程中 缓存,并且被当前工作进程的每次请求所 共享。 Pattern 缓存的上限值通过 lua_regex_cache_max_entries 来修改,它的默认值为 1024。

  • ngx.re.* 中的 j 选项,若指明该参数,如果使用的 PCRE 库支持 JIT,OpenResty 会在编译 Pattern 时启用 JIT。 启用 JIT 后正则匹配会有明显的性能提升。 较新的平台,自带的 PCRE 库均支持 JIT。 如果系统自带的 PCRE 库不支持 JIT,出于性能考虑,最好自己编译一份 libpcre.so,然后在编译 OpenResty 时链接过去。

要想验证当前 PCRE 库是否支持 JIT,可以这么做:

  • 1、 编译 OpenResty 时在 ./configure 中指定 --with-debug 选项;

  • 2、 在 error_log 指令中指定日志级别为 debug;

  • 3、 运行正则匹配代码,查看日志中是否有 pcre JIT compiling result: 1。

即使运行在不支持 JIT 的 OpenResty 上,加上 j 选项也不会带来坏的影响。在 OpenResty 官方的 Lua 库中,正则匹配至少都会带上 jo 这两个选项。

location /test {
    content_by_lua_block {
        local regex = [[\d+]]

        -- 参数 "j" 启用 JIT 编译,参数 "o" 是开启缓存必须的
        local m = ngx.re.match("hello, 1234", regex, "jo")
        if m then
            ngx.say(m[0])
        else
            ngx.say("not matched!")
        end
    }
}

测试结果如下:

➜  ~ curl 127.0.0.1/test
1234

另外还可以试试引入 lua-resty-core 中的正则表达式 API。这么做需要在代码里加入 require('resty.core.regex')。 lua-resty-core 版本的 ngx.re.*,是通过 FFI 而非 Lua/C API 来跟 OpenResty C 代码交互的。某些情况下,会带来明显的性能提升。

Lua 正则简单汇总

Lua 中正则表达式语法上 最大的区别,Lua 使用 % 来进行转义,而其他语言的正则表达式使用 \ 符号来进行转义。 其次,Lua 中并不使用 ? 来表示非贪婪匹配,而是定义了不同的字符来表示是否为贪婪匹配。

定义如下:

符号
匹配次数
匹配模式

+

匹配前一字符 1 次或多次

非贪婪

*

匹配前一字符 0 次或多次

贪婪

-

匹配前一字符 0 次或多次

非贪婪

?

匹配前一字符 0 次或 1 次

仅用于此,不用于标识是否贪婪

符号
匹配模式

x

x 是一个随机字符,代表它自身。(x 不是^$()%.[]*+-? 等特殊字符)

.

任意字符

%a

字母

%c

控制字符

%d

数字

%l

小写字母

%p

标点字符

%s

空白符

%u

大写字母

%w

字母和数字

%x

十六进制数字

%z

代表 0 的字符

[ABC]

匹配 [...] 中的所有字符,例如 [aeiou] 匹配字符串 "google runoob taobao" 中所有的 e o u a 字母。

[^ABC]

匹配除了 [...] 中字符的所有字符,例如 [^aeiou] 匹配字符串 "google runoob taobao" 中除了 e o u a 字母的所有字母。

常用的正则函数

  • string.find 的基本应用是在目标串内搜索匹配指定的模式的串。

    • 函数如果找到匹配的串,就返回它的开始索引和结束索引,否则返回 nil。

    • find 函数第三个参数是可选的:标示目标串中搜索的起始位置。 例如当我们想实现一个迭代器时,可以传进上一次调用时的结束索引,如果返回了一个 nil 值的话,说明查找结束了。

    local s    = "hello world"
    local i, j = string.find(s, "hello")
    print(i, j) --> 1 5
  • string.gmatch 我们也可以使用返回迭代器的方式。

    local s = "hello world from Lua"
    
    for w in string.gmatch(s, "%a+") do
        print(w)
    end
    
    -- output :
    --    hello
    --    world
    --    from
    --    Lua
  • string.gsub 用来查找匹配模式的串,并使用替换串将其替换掉,但并不修改原字符串,而是返回一个修改后的字符串的副本。 函数有 目标串、模式串、替换串 三个参数,使用范例如下:

    local a = "Lua is cute"
    local b = string.gsub(a, "cute", "great")
    print(a) --> Lua is cute
    print(b) --> Lua is great
  • 还有一点值得注意的是,'%b' 用来匹配对称的字符,而不是一般正则表达式中的单词的开始、结束。 而且采用的是贪婪匹配模式。 常写为 '%bxy',x 和 y 是任意两个不同的字符,x 作为匹配的开始,y 作为匹配的结束。 比如,'%b()' 匹配以 '(' 开始,以 ')' 结束的字符串,示例如下:

    print(string.gsub("a (enclosed (in) parentheses) line", "%b()", ""))
    
    -- output: a  line 1
Previous非空判断Next虚变量

Last updated 2 years ago