当前位置：首页 > news >正文

Flink SQL 模式识别用 MATCH_RECOGNIZE 把 CEP 写成 SQL

news 2026/6/27 23:46:22

1. 为什么要用 MATCH_RECOGNIZE

在流式场景里，“找一段事件序列模式”是高频需求：比如A→B→C的业务链路、连续下降后反弹的价格走势、登录失败多次后成功等。

Flink 本身有 CEP（Complex Event Processing）库用于模式检测，同时 Flink SQL 也提供了更“关系化”的表达方式：用MATCH_RECOGNIZE在 SQL 里描述复杂事件模式。Flink 文档明确指出：该能力内部基于 Flink CEP 实现，并且 Flink 的MATCH_RECOGNIZE是 SQL 行模式识别标准能力的一部分子集。(Apache Nightlies)

标准背景：SQL 的行模式识别（Row Pattern Recognition）在 SQL:2016 进入标准体系，ISO/IEC 19075-5 对其语义与语法做了规范（包括MATCH_RECOGNIZE）。(國際標準組織)

2. 依赖与使用方式

2.1 在 Maven 工程中使用（需要引入 flink-cep）

Flink 文档说明：要在工程里用MATCH_RECOGNIZE，需要把flink-cep加到依赖里。(Apache Nightlies)

<dependency><groupId>org.apache.flink</groupId><artifactId>flink-cep</artifactId><version>2.2.0</version></dependency>

版本建议：和你集群/依赖的 Flink 主版本保持一致（上面示例是 2.2.0）。(Maven Central)

2.2 SQL Client 里用（通常不需要额外操作）

Flink 文档也提到：在 Flink SQL Client 中使用MATCH_RECOGNIZE，默认依赖已包含。(Apache Nightlies)

3. MATCH_RECOGNIZE 语法骨架：7 个核心子句

一条MATCH_RECOGNIZE查询通常由以下子句组成：(Apache Nightlies)

PARTITION BY：按键分区（类似聚合的 group by 语义）
ORDER BY：指定事件顺序（模式依赖顺序）
MEASURES：定义输出字段（类似 select）
ONE ROW PER MATCH：每次匹配输出几行（Flink 重点支持这一种）(Apache Nightlies)
AFTER MATCH SKIP：控制下一次匹配从哪开始（避免/允许重叠匹配）(Apache Nightlies)
PATTERN：用“类正则”表达模式（A B C、A B+ C* 等）(Apache Nightlies)
DEFINE：定义模式变量 A/B/C 各自满足的条件(Apache Nightlies)

4. 非常关键的 SQL 语义与限制（不看会踩坑）

4.1 只能作用在 Append 表，并且输出也是 Append 表

Flink 文档明确写了 “Attention”：MATCH_RECOGNIZE只能应用到 append table，并且结果也始终是 append table。(Apache Nightlies)

这意味着：

如果你的上游是更新流（Upsert/Changelog），直接用可能不被支持；
结果下游一般按 append sink 思路处理（不依赖更新/撤回语义）。

4.2 强烈建议写 PARTITION BY，否则可能退化成非并行算子

如果不分区，为了保证全局有序，MATCH_RECOGNIZE可能会被翻译成非并行算子（性能直接崩）。Flink 文档对此有明确建议：强烈建议 partition incoming data。(Apache Nightlies)

4.3 ORDER BY 的第一排序键必须是时间属性且升序

Flink 解释了 ORDER BY 的约束：它假定ORDER BY的第一个参数是time attribute 且 ASC；比如ORDER BY rowtime ASC, price DESC可以，但ORDER BY price, rowtime或ORDER BY rowtime DESC, ...不行。(Apache Nightlies)

5. 一个“最小可用”示例：匹配 A→B→C 三段事件

SELECTT.aid,T.bid,T.cidFROMMyTable MATCH_RECOGNIZE(PARTITIONBYuseridORDERBYproctime MEASURES A.idASaid,B.idASbid,C.idAScid ONEROWPERMATCHAFTERMATCHSKIP PASTLASTROWPATTERN(A B C)DEFINE AASname='a',BASname='b',CASname='c')AST;

这一类写法的价值：把原来 CEP 里的状态机逻辑，直接用 SQL 的“模式变量 + 类正则 PATTERN + 规则 DEFINE”写出来。(Apache Nightlies)

6. 实战例子：识别“持续下跌后反弹”的股票价格区间

Flink 官方示例：找出某个股票价格连续下降（一个或多个 PRICE_DOWN），最后出现一次PRICE_UP的区间，并输出区间起点、最低点、终点。(Apache Nightlies)

SELECT*FROMTicker MATCH_RECOGNIZE(PARTITIONBYsymbolORDERBYrowtime MEASURES START_ROW.rowtimeASstart_tstamp,LAST(PRICE_DOWN.rowtime)ASbottom_tstamp,LAST(PRICE_UP.rowtime)ASend_tstamp ONEROWPERMATCHAFTERMATCHSKIPTOLASTPRICE_UP PATTERN(START_ROW PRICE_DOWN+PRICE_UP)DEFINE PRICE_DOWNAS(LAST(PRICE_DOWN.price,1)ISNULLANDPRICE_DOWN.price<START_ROW.price)ORPRICE_DOWN.price<LAST(PRICE_DOWN.price,1),PRICE_UPASPRICE_UP.price>LAST(PRICE_DOWN.price,1))MR;

你可以重点学这 3 个技巧：

PRICE_DOWN+：+表示至少一次（类正则量词）(Apache Nightlies)
LAST(var.col, 1)：在 DEFINE 中引用“上一个满足该变量条件的行”做对比（实现“越来越小/越来越大”）(Apache Nightlies)
AFTER MATCH SKIP TO LAST PRICE_UP：控制下一次匹配从哪里开始，避免一次下跌区间被过度拆分/重叠 (Apache Nightlies)

7. 已知限制：Flink 只是标准子集（常见不支持点）

Flink 文档的 Known Limitations 中明确提到一些 SQL 标准里的模式表达能力当前不支持，例如：(Apache Nightlies)

Pattern groups：不能对一个子序列整体加量词，比如(A (B C)+)不合法
Alterations：不支持|这种分支模式，如PATTERN((A B | C D) E)

此外还有一个非常实用的提醒：MATCH_RECOGNIZE不会使用你配置的 state retention time，如果你担心状态无限增长，需要用WITHIN来限制匹配窗口。(Apache Nightlies)

8. 生产建议清单（直接照做，少走弯路）

一定写PARTITION BY（按 userId / deviceId / symbol 等），避免退化成非并行全局排序。(Apache Nightlies)
ORDER BY第一列用时间属性且 ASC，必要时第二列再按业务字段辅助排序。(Apache Nightlies)
用AFTER MATCH SKIP ...明确你的“是否允许重叠匹配”的策略。(Apache Nightlies)
模式可能长时间不闭合时，用WITHIN控状态，否则状态可能积压。(Apache Nightlies)
记住它只能吃 append 表、产出 append 表，链路上游/下游要匹配这个语义。(Apache Nightlies)

查看全文

http://www.cnnetsun.cn/news/51881.html