如何正确阅读Pandas Dataframe 上的重音字符?

a1o7rhls  于 2023-03-11  发布在  其他
关注(0)|答案(1)|浏览(110)

我试图从一个开放数据公共机构网站读取一个csv文件,但是当我试图读取它时,用“utf-8”编码是不可能的;所以我试着用其他的像'ascii','ISO-8859-1'或'latin 1'.用这些我能读它,但它不能读西班牙口音('')和得到“&oacute”,所有这些类型的字母.这是我的代码:

enero2023 = pd.read_csv('/Users/leona/Documents/Presupuestos/Presupuestos C.A/Honduras/Ejecucion/202300.csv',
                         encoding='ISO-8859-1', engine='python', sep=',')

我得到了这样的结果:
enter image description here
如你所见,我得到的不是“ó”o“á",而是&"“acute;
你知道有什么方法可以把这个子字符串转换成带重音符号的实际字母吗?

83qze16e

83qze16e1#

尝试从opendata公共机构网站读取csv文件
那么我建议你研究一下报头的内容类型响应,例如使用请求

import requests
r = request.get("YOUR_DOCUMENT_URL_HERE")
print(r.headers["Content-Type"])

您可能会得到字符集,例如,使用UTF-8的HTML页面可能会给予text/html; charset=UTF-8,这确实意味着它是utf-8
如果这是不可能的或没有帮助,您将需要揭示使用其他方法编码,首先我建议您尝试使用chardet在您的文件,如果失败,然后通过所有合理的标准编码

相关问题