我正在尝试清理SQL零售数据库,但我对名字列的结构感到困惑,因此理想情况下,我希望有一组干净的名称
我尝试的是
#change the datatype of first_name to str
user_dataframe['first_name'] = user_dataframe['first_name'].astype('string')
user_dataframe['last_name'] = user_dataframe['last_name'].astype('string')
它只是将数据类型从对象更改为字符串,但现在我不确定如何搜索我不想要的字符串
脏字符串采用以下格式
Hans Jürgen
Bärbel
Süleyman
Sören
Klaus-Jürgen
2GU3G97VI1
I7IJDAPMIM
Gülten
DD0K0FUDRY
如果使用正则表达式删除任何具有以下模式字符后跟数字的行,但我不确定某些符号在脏数据上的含义,我在想什么
2条答案
按热度按时间drnojrws1#
问题出在Python/Pandas中的编码。阅读数据时,请尝试更改编码。请参见https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html和https://docs.python.org/3/library/codecs.html#standard-encodings。
另见以下答案:Converting special charactes such as ü and à back to their original, latin alphbet counterparts in C#
deikduxw2#
正如有人提到的,是编码类型导致了这个问题,使用utf-8-sig编码修复了奇怪字符的问题