dataframe与'文本'列,其中包含tweets每个tweets有短的url在结束时,我想删除该url使用正则表达式从所有行
“这是蒂利的,”他说。她只是来看看你。希望你一切都好。如果没有,她可以拍拍,依偎,啵啵,整个位。13/10 https//(这里的短网址我不能发布)'
我需要删除'http'和所有的正则表达式后,它使用正则表达式
archive_clean['text'] = archive_clean['text'].replace('https.', '', regex=True)
输出:
这是蒂利她只是来看看你。希望你一切都好。如果没有,她可以拍拍,依偎,啵啵,整个位。13/10 //(URL的其余部分)
1条答案
按热度按时间ifmq2ha21#
它应该像在你已经拥有的句点通配符的末尾添加一个星号一样简单。星号匹配前一项的零次或多次重复。(链接到python re docs)
将代码更改为
删除
"http"
子串之后的所有内容。也就是说,正则表达式几乎总是有例外。
"http"
之前的空白?我刚才提供的解决方案将示例字符串保留为"...boops, the whole bit. 13/10 "
"http"
吗?在这种情况下,我们应该将正则表达式更改为
"http\S*\Z"
,以确保它只删除锚定在字符串末尾的URL。.str.strip()
)* 预先剥离空白列来解决这个问题感谢mozway在评论中提出这个建议。
有很多方法可以处理这些边缘情况,也许你已经想到了,但是你在问题中概述的简单情况相当简单。
希望这有帮助!