我有一个.csv,结构如下:
date_begin,date_end,name,name_code,active_accounts,transaction_amount,transaction_count
1/1/2008,1/31/2008,Name_1,1001,"123,456","$7,890,123.45","67,890"
2/1/2008,2/29/2008,Name_1,1001,"43,210","$987,654.32","109,876"
3/1/2008,3/31/2008,Name_1,1001,"485,079","$1,265,789,433.98","777,888"
...
12/1/2008,12/31/2008,Name_1,1001,"87,543","$432,098,987","87,987"
1/1/2008,1/31/2008,Name_2,1002,"268,456","$890,123.45","97,890"
2/1/2008,2/29/2008,Name_2,1002,"53,210","$987,654.32","109,876"
...
etc
我尝试通过使用以下代码将它们读入pandas dataframe:
import pandas as pd
data = pd.read_csv('my_awesome_csv.csv'),parse_dates=[[0,1]],
infer_datetime_format=True)
这工作得很好,只是我想控制每列中的数据类型。当我在解释器中运行下面的代码时,我发现引号中的数字不能被识别为数字,无论是美元还是其他数字。
In [10]: data.dtypes
Out[10]:
date_begin_date_end object
name object
name_code int64
active_accounts object # Problem, I want this to be a number
transaction_amount object # Ditto, I want this to be a number (it's a dollar amount)
transaction_count object # Still a number!
dtype: object
我在Pandas的csv文档中做了一些调查,但是没有找到我想要的关于声明类型的内容,当它们在csv中保存为带有逗号和美元符号的字符串时,它们是数量。我在这里的最终目标是能够对这些列中的值进行一些算术运算。
有什么想法吗?
1条答案
按热度按时间0qx6xfy61#
在调用
read_csv
之后,可以使用向量化的字符串方法来解析这些列:收益率
read_csv
确实有一个converters
parameter,您可以使用它提供一个函数来解析有问题的列。这些函数对每个字符串调用一次。如果你有很多行,那可能需要很多Python函数调用。如上所示,使用向量化字符串方法处理列应该快得多。收益率
transaction_amount
列中的值为小数。小数: