我试图清理一些文本数据,以在其上训练LDA主题模型,但有些数据点包含文件路径。如何使用正则表达式有效地删除它们?例如:输入:这是包含文件路径的示例文本:C:\Users\Username\Documents\file.txt。这是另一条路:D:\Data\folder\file.docx。所需输出:这是包含文件路径的示例文本:。这是另一条路径:.谢谢你的时间!
2fjabf4q1#
您可以使用以下内容。这将需要文件扩展名。
[A-Z]:\\.*?\.[^\s]+(?<!\.)
而这个人没有
[A-Z]:\\.*?(?:[^\s]+|(?:\.[^\s]+(?<!\.))?)
如果匹配项被删除,这些将返回以下内容。
This is a sample text containing a file path: . This is another path: .
1条答案
按热度按时间2fjabf4q1#
您可以使用以下内容。
这将需要文件扩展名。
而这个人没有
如果匹配项被删除,这些将返回以下内容。