regex 将相同的匹配捕获到不同的组中

ghhaqwfi 于 2023-08-08 发布在其他

关注(0)|答案(2)|浏览(101)

我有一个很大的关键字列表和它们所属的组。一些相同的关键字属于不同的组。我需要找到所有命名的组。

msg = 'ef'
tmp = re.compile(r'(?P<ABC>ab|ef)|(?P<EFG>cd|ef)')
res = [g.groupdict() for g in tmp.finditer(msg)]

字符串
第一个月
同时，我可以找到以下情况中的所有组：

msg = 'cd ab cd'

[{'ABC': None, 'EFG': 'cd'}, {'ABC': 'ab', 'EFG': None}, {'ABC': None, 'EFG': 'cd'}]

的数据
但我没有找到所有的组。如果文本中有“ef”，我如何找到所有的组（“ABC”，“EFG”）？

regex

来源：https://stackoverflow.com/questions/76696211/capture-the-same-match-into-different-groups

2条答案

按热度按时间

camsedfj1#

您可以使用lookarounds将相同的文本捕获到不同的组中：

(?=(?P<ABC>ab|ef)?)   # Lookahead and capture 'ab' or 'ef' into group ABC
                      # if either of them is there
(?=(?P<EFG>cd|ef)?)   # then do the same with 'cd', 'ef' and group EFG,
(?:ab|cd|ef)          # before matching the real thing: a union set of all keywords.

字符串
尝试on regex101.com（请参阅 * 匹配信息 * 面板）。
考虑到这一点，编写一个脚本来生成这样的正则表达式应该是很简单的：

from itertools import chain
import re

keywords_by_group = {
  'ABC': ('ab', 'ef'),
  'EFG': ('cd', 'ef'),
  'HIJ': ('ef', 'hi', 'jk')
}

lookaheads = (
  f'''(?=(?P<{group}>{'|'.join(keywords)})?)'''
  for group, keywords in keywords_by_group.items()
)

regex = re.compile(
  fr'''
  {''.join(lookaheads)}
  (?:{'|'.join(set(chain(*keywords_by_group.values())))})
  ''',
  re.X
)

print(regex.pattern)

'''
(?=(?P<ABC>ab|ef)?)(?=(?P<EFG>cd|ef)?)(?=(?P<HIJ>ef|hi|jk)?)
(?:ab|cd|ef|hi|jk)
'''

型
试试看：

message = 'cd ab cd ef'
print([match.groupdict() for match in regex.finditer(message)])

'''
[
  {'ABC': None, 'EFG': 'cd', 'HIJ': None},
  {'ABC': 'ab', 'EFG': None, 'HIJ': None},
  {'ABC': None, 'EFG': 'cd', 'HIJ': None},
  {'ABC': 'ef', 'EFG': 'ef', 'HIJ': 'ef'}
]
'''

型

赞(0）回复(0）举报 2023-08-08

2w2cym1i2#

一旦字符串的一部分被模式的一部分消耗，它将不会被重新考虑用于模式的不同部分。如果你需要找到所有的group-patterns，我们必须在外部使用iterate这个group-patterns：

import re

msg = 'ef'
patterns = {
    'ABC': r'ab|ef',
    'EFG': r'cd|ef'
}

res = {}
for group, pattern in patterns.items():
    if re.fullmatch(pattern, msg):
        res[group] = msg

print(res)  # {'ABC': 'ef', 'EFG': 'ef'}

字符串

赞(0）回复(0）举报 2023-08-08

我来回答

regex 将相同的匹配捕获到不同的组中

2条答案

相关问题

热门标签

最新问答