我试图在Instagram中抓取文本,并检查是否可以在个人简介中找到一些关键字,但用户使用特殊字体,所以我无法识别特定的单词,我如何删除文本的字体或格式,以便我可以搜索该单词?
import re
test="𝙄𝙣𝙝𝙖𝙡𝙚 𝙩𝙝𝙚 𝙛𝙪𝙩𝙪𝙧𝙚 𝙩𝙝𝙚𝙣 𝙚𝙭𝙝𝙖𝙡𝙚 𝙩𝙝𝙚 𝙥𝙖𝙨𝙩. "
x = re.findall(re.compile('past'), test)
if x:
print("TEXT FOUND")
else:
print("TEXT NOT FOUND")
未找到文本
另一个例子:
import re
test="ғʀᴇᴇʟᴀɴᴄᴇ ɢʀᴀᴘʜɪᴄ ᴅᴇsɪɢɴᴇʀ"
test=test.lower()
x = re.findall(re.compile('graphic'), test)
if x:
print("TEXT FOUND")
else:
print("TEXT NOT FOUND")
未找到文本
2条答案
按热度按时间jecbmhm31#
可以使用unicodedata.normalize返回Unicode字符串的范式。有关示例,请参见以下代码段:
并且输出将是:
找到文本
guykilcj2#
如果您正在处理葡萄牙语文本,请小心。如果您有:
您用途:
你将失去cedilha(Ç),它的意思是,orçamento将orcamento。
否则,如果用途:
你会留下塞迪拉。
请注意,我将NFKD更改为NFKC,而不是剪切编码和解码。