我试图删除pysparkDataframe列中的一些整词(但不区分大小写)。
import re
s = "I like the book. i'v seen it. Iv've" # add a new phrase
exclude_words = ["I", "I\'v", "I\'ve"]
exclude_words_re = re.compile(r"\b(" + r"|".join(exclude_words) +r")\b|\s", re.I|re.M)
exclude_words_re.sub("" , s)
我补充道
"Iv've"
但是,我得到了:
'like the book. seen it.'
“iv've”不应删除,因为它与排除的单词中的任何整词都不匹配。
1条答案
按热度按时间l2osamch1#
要实现代码的2个更改:
使用适当的正则表达式标志忽略大小写
添加
\b
只包括整句话。