如何在Python中有效地处理大型CSV文件?[关闭]

p5cysglq  于 2023-04-27  发布在  Python
关注(0)|答案(1)|浏览(138)

**已关闭。**此问题正在寻求书籍,工具,软件库等的建议。它不符合Stack Overflow guidelines。目前不接受答案。

我们不允许您提问有关书籍、工具、软件库等方面的建议。您可以编辑问题,以便您可以通过事实和引用来回答问题。
6天前关闭。
Improve this question
我有一个CSV文件,其中包含数百万行和列,我需要在Python中处理。然而,当我试图使用pandas或csv模块将其加载到内存中时,我的程序变得非常缓慢和内存密集。
我可以使用哪些有效的技术或库来处理Python中如此大的CSV文件?我听说过分块和流式数据,但我不确定如何实现它们。您可以提供一些代码示例或指向一些有用的资源吗?
任何意见或建议将不胜感激。提前感谢您!

pepwfjgg

pepwfjgg1#

你可以试试Polars,它真的很快(如果你能留在内存中)。例如,从他们的文档:

import polars as pl

q = (
    pl.scan_csv("iris.csv")
    .filter(pl.col("sepal_length") > 5)
    .groupby("species")
    .agg(pl.all().sum())
)

df = q.collect()

相关问题