regex 使用正则表达式从文本中删除完整的文件路径

iih3973s  于 2023-06-25  发布在  其他
关注(0)|答案(1)|浏览(101)

我试图清理一些文本数据,以在其上训练LDA主题模型,但有些数据点包含文件路径。如何使用正则表达式有效地删除它们?例如:
输入:
这是包含文件路径的示例文本:C:\Users\Username\Documents\file.txt。这是另一条路:D:\Data\folder\file.docx。
所需输出:
这是包含文件路径的示例文本:。这是另一条路径:.
谢谢你的时间!

2fjabf4q

2fjabf4q1#

您可以使用以下内容。
这将需要文件扩展名。

[A-Z]:\\.*?\.[^\s]+(?<!\.)

而这个人没有

[A-Z]:\\.*?(?:[^\s]+|(?:\.[^\s]+(?<!\.))?)

如果匹配项被删除,这些将返回以下内容。

This is a sample text containing a file path: . This is another path:  .

相关问题