regex 为什么Python的`re.split()`不对零长度匹配进行拆分？

voj3qocg 于 2023-06-07 发布在 Python

关注(0)|答案(4)|浏览(183)

Python中的re模块（在其他方面非常强大）的一个特殊之处是，re.split()永远不会在零长度匹配时拆分字符串，例如，如果我想沿着单词边界拆分字符串：

>>> re.split(r"\s+|\b", "Split along words, preserve punctuation!")
['Split', 'along', 'words,', 'preserve', 'punctuation!']

而不是

['', 'Split', 'along', 'words', ',', 'preserve', 'punctuation', '!']

为什么会有这个限制呢？这是设计吗？其他正则表达式风格也是这样的吗？

regex

来源：https://stackoverflow.com/questions/2713060/why-doesnt-pythons-re-split-split-on-zero-length-matches

4条答案

按热度按时间

bq3bfh9z1#

这是一个已经做出的设计决定，而且可能会出现任何一种情况。Tim Peters写了这篇文章来解释：
例如，如果你用模式x* 分割“abc”，你会期望什么？模式匹配（长度为）在4个地方，但我敢打赌，大多数人会感到惊讶，得到
[''，'a'，' b'，'c'，'']
而不是（因为他们得到）
['abc']
然而，其他一些人不同意他的观点。Guido货车Rossum不希望由于向后兼容性问题而对其进行更改。他确实说过：
不过，我可以添加一个标志来启用此行为。

编辑：

Jan Burgy发布了一个解决方法：

>>> s = "Split along words, preserve punctuation!"
>>> re.sub(r"\s+|\b", '\f', s).split('\f')
['', 'Split', 'along', 'words', ',', 'preserve', 'punctuation', '!']

其中'\f'可以由任何未使用的字符替换。

赞(0）回复(0）举报 2023-06-07

dhxwm5r42#

为了解决这个问题，你可以使用regex package的VERSION1模式，这使得split() * 也产生零长度匹配 *：

>>> import regex as re
>>> re.split(r"\s+|\b", "Split along words, preserve punctuation!", flags=re.V1)
['', 'Split', 'along', 'words', ',', 'preserve', 'punctuation', '!']

赞(0）回复(0）举报 2023-06-07

e5nszbig3#

Python从3.7开始支持这种模式，但仅限于固定宽度的模式。

>>> s = "You! Are you Tom? I am Danny."
>>> re.split(r'(?<=[.!\?])', s)
['You!', ' Are you Tom?', ' I am Danny.', '']

赞(0）回复(0）举报 2023-06-07

bmvo0sr54#

基本上，split（）是两个不同的函数合二为一。如果您提供了参数，它的行为与在没有参数的情况下调用时非常不同。
一开始，似乎

s.split() == s.split(' \t\n')

但事实并非如此，正如你所展示的。医生说：
[...]如果未指定sep或sep为None，则任何空白字符串都是分隔符，并从结果中删除空字符串。[...]
即使添加一个'remove_empty'参数，它仍然会表现得很奇怪，因为'remove_empty'的默认值取决于'sep'参数的存在。

赞(0）回复(0）举报 2023-06-07

我来回答

regex 为什么Python的`re.split()`不对零长度匹配进行拆分？

4条答案

相关问题

热门标签

最新问答