pandas 数据清理名字和姓氏,但它们具有奇怪的符号结构

jm81lzqq  于 2023-01-11  发布在  其他
关注(0)|答案(2)|浏览(122)

我正在尝试清理SQL零售数据库,但我对名字列的结构感到困惑,因此理想情况下,我希望有一组干净的名称
我尝试的是

#change the datatype of first_name to str
        user_dataframe['first_name'] = user_dataframe['first_name'].astype('string')
        user_dataframe['last_name'] = user_dataframe['last_name'].astype('string')

它只是将数据类型从对象更改为字符串,但现在我不确定如何搜索我不想要的字符串
脏字符串采用以下格式

Hans Jürgen
Bärbel
Süleyman
Sören
Klaus-Jürgen
2GU3G97VI1
I7IJDAPMIM
Gülten
DD0K0FUDRY

如果使用正则表达式删除任何具有以下模式字符后跟数字的行,但我不确定某些符号在脏数据上的含义,我在想什么

drnojrws

drnojrws1#

问题出在Python/Pandas中的编码。阅读数据时,请尝试更改编码。请参见https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html和https://docs.python.org/3/library/codecs.html#standard-encodings。
另见以下答案:Converting special charactes such as ü and à back to their original, latin alphbet counterparts in C#

deikduxw

deikduxw2#

正如有人提到的,是编码类型导致了这个问题,使用utf-8-sig编码修复了奇怪字符的问题

相关问题