我想去掉Pandas Dataframe 列中每个单词末尾的字母br(正如你将看到的,这一列的行实际上是句子--彼此都不相同)。
不幸的是,我已经清理了数据,没有考虑太多< br >标签,所以我现在只剩下像“startbr”、"nicebr“和”hellobr“这样的词,这些词对我来说毫无用处。
Dataframe 行可能如下所示(错误由****标记表示):
Sentence = here are**somebr**examples of poorly written paragraphs**andbr**well-written**paragraphsbr**on the same**topicbr**how do they compare?
我想要什么(结尾没有br):
Sentence: here are**some**examples of poorly written**and**well-written**paragraphs**on the same**topic**how do they compare?
我希望得到一个能让我保留原来句子的答案(没有任何后面跟有字母br的单词)。像“brutish”、“stakenous”和“ember”这样的单词应该保留原样,因为它们可能有价值。幸运的是,没有任何单词我想保留以字母br结尾。
1条答案
按热度按时间bqf10yzr1#
使用带有单词边界(
\b
)的正则表达式来匹配单词的结尾:示例(赋值为新列
text2
):