如何将下面的CSV文件读入Pandas DataFrame
?
Date,"price","factor_1","factor_2"
2012-06-11,1600.20,1.255,1.548
2012-06-12,1610.02,1.258,1.554
2012-06-13,1618.07,1.249,1.552
2012-06-14,1624.40,1.253,1.556
2012-06-15,1626.15,1.258,1.552
2012-06-16,1626.15,1.263,1.558
2012-06-17,1626.15,1.264,1.572
4条答案
按热度按时间v6ylcynt1#
pandas.read_csv
拯救:这将输出Pandas
DataFrame
:mw3dktmi2#
要将CSV文件作为PandasDataFrame读取,您需要使用**
pd.read_csv
**,它将sep=','
作为默认值。但这并不是故事的结局;数据以多种不同的格式存在,并以不同的方式存储,因此您通常需要向
read_csv
传递额外的参数,以确保正确读取数据。下面的表格列出了CSV文件遇到的常见情况沿着您需要使用的相应参数。您通常需要以下所有参数或某些参数的组合来读取 * 您的 * 数据。
脚注
1.默认情况下,
read_csv
使用C解析器引擎来提高性能。C解析器只能处理单字符分隔符。如果您的CSV有多字符分隔符,则需要修改代码以使用'python'
引擎。您也可以传递正则表达式:1.当数据以一种编码格式存储,但以不同的不兼容格式读取时,会发生
UnicodeDecodeError
。最常见的编码方案是'utf-8'
和'latin-1'
,您的数据可能适合其中之一。header=False
指定CSV中的第一行是数据行而不是标题行,names=[...]
允许您指定在创建DataFrame时分配给它的列名列表。1.当将具有未命名索引的DataFrame保存到CSV,然后重新读取时,会出现“未命名:0”。不必在读取时修复此问题,也可以在写入时修复此问题,方法是使用
还有一些我在这里没有提到的论点,但这些是你最经常遇到的。
nwlls2ji3#
这里有一个使用Python内置csv module的pandas库的替代方案。
将打印
roejwanj4#
注意相当干净,但是:
不是那么紧凑,但它做的工作: