我在一个 Dataframe 中有一个字符串列,其中的值带有重音符号,如
'México', 'Albânia', 'Japão'
如何用重音符号替换字母以获得以下内容:
'Mexico', 'Albania', 'Japao'
我尝试了Stack Overflow中的许多解决方案,如下所示:
def strip_accents(s):
return ''.join(c for c in unicodedata.normalize('NFD', s)
if unicodedata.category(c) != 'Mn')
但失望的回报
strip_accents('México')
>>> 'M?xico'
2条答案
按热度按时间dohp0rv51#
可以使用
translate
:cwxwcias2#
在PySpark中,您可以创建一个矢量化的
pandas_udf
,因此它比常规的udf
更受欢迎。这似乎是在Pandas身上做这件事的最好方法。因此,我们可以使用它为PySpark应用程序创建一个
pandas_udf
。测试: