我比较两个PDF版本,并提供它们之间的差异。我遇到的一个问题是,对于一些版本之间相同的单词,它们有不同的上标。即使上标是不同的,我不感兴趣的标记它作为一个差异,因为它创造了太多的无意义的噪音
例如:
旧PDF -“这是一个词”
新PDF -“这是一个词”
这会产生很多噪音,我不想把它标记为一个差异,所以我试图创建一个正则表达式模式,我可以用它来忽略它
我需要创建一个模式,检查词根是否相同,并在后面跟随一些上标字符
以下是我到目前为止得到的:
pattern = '[a-zA-Z]+[\u02b0-\u207f]'
我需要的第一部分,而不是检查根字符串是相同的,其次是一些上标字符(S)
有什么想法吗有没有更好的方法来识别这些单词?
1条答案
按热度按时间jecbmhm31#
我建议看看
unicodedata.category
并使用它来消除Lm
(修饰符字母)字符如下但是请记住,它删除了
Lm
类别中的所有符号,而不是严格的字母。