为什么此文本绕过RegEx扫描?[已关闭]

gmol1639  于 2023-10-22  发布在  其他
关注(0)|答案(1)|浏览(67)

已关闭此问题为not about programming or software development。它目前不接受回答。

这个问题似乎不是关于a specific programming problem, a software algorithm, or software tools primarily used by programmers的。如果你认为这个问题与another Stack Exchange site的主题有关,你可以留下评论,解释在哪里可以回答这个问题。
16天前关闭
社区在16天前审查了是否重新打开这个问题,并将其关闭:
原始关闭原因未解决
Improve this question
骗子正在使用这种形式的消息向我们的用户群发消息(欺诈者)- 欺诈者。欺诈者正在使用这种形式的消息向我们的用户群发消息。𝔸𝕊𝔸𝕦𝕡𝕡𝕚𝕔𝕜𝕥𝕠𝕨𝕒𝕟𝕥𝕀𝟞𝟟𝟠𝕚𝕟𝕥𝕖𝕣𝕖𝕤𝕥𝕖𝕕𝕧𝕖𝕣𝕪𝕒𝕞𝕀
我的问题:
1.为什么短信看起来像这样?那是字体吗
1.这种文本如何绕过手动RegEx文本扫描?我们会扫描每一条信息,以捕捉任何可疑的信息。

vi4fp9gy

vi4fp9gy1#

他们使用的字符,(Mathematical Double Struck A(U+1D 538))-(Mathematical Double Struck z(U+1D 56 B))是Unicode字符的一部分,而不是单独的字体。𝕫
如果在编写正则表达式时没有考虑特殊的Unicode字符,那么它们将不会捕获这些字符,因为一个简单的/\w/将不会匹配任何这些字符,除非您还指定显式匹配Unicode(通常在表达式的末尾带有/u标志)。
类似地,/A/不会匹配"𝔸",因为它们是不同的字符,并且该模式只匹配特定的字符。
为了不需要考虑每一种可能的方式来表示类似的字符,在对它们运行正则表达式之前,可以使用normalize your Unicode。这样,就保证了一致的表示,并且您可以更轻松地编写匹配更大范围文本的表达式。

相关问题