python 如何删除 Dataframe 列中每个单词末尾的特定字母组合?

bq9c1y66  于 2022-10-30  发布在  Python
关注(0)|答案(1)|浏览(144)

我想去掉Pandas Dataframe 列中每个单词末尾的字母br(正如你将看到的,这一列的行实际上是句子--彼此都不相同)。
不幸的是,我已经清理了数据,没有考虑太多< br >标签,所以我现在只剩下像“startbr”、"nicebr“和”hellobr“这样的词,这些词对我来说毫无用处。
Dataframe 行可能如下所示(错误由****标记表示):

Sentence = here are**somebr**examples of poorly written paragraphs**andbr**well-written**paragraphsbr**on the same**topicbr**how do they compare?

我想要什么(结尾没有br):

Sentence: here are**some**examples of poorly written**and**well-written**paragraphs**on the same**topic**how do they compare?

我希望得到一个能让我保留原来句子的答案(没有任何后面跟有字母br的单词)。像“brutish”、“stakenous”和“ember”这样的单词应该保留原样,因为它们可能有价值。幸运的是,没有任何单词我想保留以字母br结尾。

bqf10yzr

bqf10yzr1#

使用带有单词边界(\b)的正则表达式来匹配单词的结尾:

df['text'] = df['text'].str.replace(r'br\b', '', regex=True)

示例(赋值为新列text2):

text                  text2
0  word wordbr bread breadbr  word word bread bread

相关问题