我正在尝试kaggle挑战here,不幸的是我被困在一个非常基本的步骤。我正在尝试通过执行以下命令将datasets读入panda Dataframe :
test = pd.DataFrame.from_csv("C:/Name/DataMining/hillary/data/output/emails.csv")
问题是,正如你所发现的,这个文件有超过30万条记录,但我只阅读到了7945条。
print (test.shape)
(7945, 21)
现在我已经仔细检查了文件,我没有发现关于第7945行的任何特殊情况。有什么提示吗?
1条答案
按热度按时间puruo6ea1#
我认为更好的方法是使用带有参数
quoting=csv.QUOTE_NONE
和error_bad_lines=False
的函数read_csv。链接但是一些数据(有问题的)将被跳过。
如果您想跳过电子邮件正文数据,您可以用途: