我有一个1000万条记录的CSV文件,失败了大约770万行。它无法进入Excel数据模型,MySQL,最后当使用Pandas分块成更小的CSV时。
失败没有错误消息。进程只是停止。检查最后一个分块的CSV文件,它似乎在第7,777,761行失败
Pandas shape()和head()显示有1000万条记录,46列,前5行看起来不错。
因此,我正在寻找如何解决这个问题的想法。
我使用skiprows隔离了第7,777,761行附近的区域。我得到了一条错误消息,说“没有可读取的列”或类似的话。看起来文件就在那里结束了。
当试图将其加载到数据模型中时(失败),它是否已被Excel损坏?如果需要,我可以发布脚本和错误消息。
谢谢你,
尝试以大约7.7 mm的线导入到Excel数据模型FAQs(不确定原因,没有错误,只是停止。导入了一些东西,但非常低,如4900线)
尝试在相同的位置导入到MySQL FAQs,没有错误消息,只是停止了。
在Python中使用Pandas进行了实验,确认了1000000行和46列。
在成功地对一个10,000行的虚拟CSV进行分块后.
使用Pandas FAQs将文件分块为100,000行CSV文件,没有错误。最后一行是7,777,761
将区块大小更改为50000 FAQs,最后一行ID为7,777,761,没有错误。
从7,777,761毫米开始重新测量,但这一次,d出现了错误
1条答案
按热度按时间nkoocmlb1#
你可以试着仔细检查问题区域周围的线条。这里有一个小助手函数可能会有所帮助:
字符串
示例用法:
型
然后又道:
型