如何读入pandas中包含特殊字符的数据集

b5buobof  于 2023-06-28  发布在  其他
关注(0)|答案(1)|浏览(101)

我正在尝试读取以下数据集:https://data.opensanctions.org/datasets/20230620/default/names.txt
我运行了这个代码:

filename = "https://data.opensanctions.org/datasets/20230620/default/names.txt"

df = pd.read_csv(filename, encoding='latin1', nrows = 2, header=None)
print(df)

dataframe看起来像这样:

0
0                                SANAVBARI NIKITENKO
1  ÐÐÐÐÐТ Ð ÐÐÐÐÐÐÐÐÐ ÐÐ¥ÐÐÐÐ...

当我读入文件时,如何自动检测特殊字符类型?

fdbelqdn

fdbelqdn1#

对于我的工作删除encoding='latin1',所以使用默认的encoding='utf-8'

filename = "https://data.opensanctions.org/datasets/20230620/default/names.txt"

df = pd.read_csv(filename, nrows = 2, header=None)
print(df)
                            0
0         SANAVBARI NIKITENKO
1  АМИНАТ РАМЗАНОВНА АХМАДОВА

相关问题