我正在尝试将一个csv文件转换为parquet格式(我不在乎它是在python还是命令行中完成的,或者...)在任何情况下,this question地址都是,但答案似乎需要先读取csv,因为在我的情况下,csv是17GB,这是不可行的,所以我想一些“离线”或流媒体的方法。
我正在尝试将一个csv文件转换为parquet格式(我不在乎它是在python还是命令行中完成的,或者...)在任何情况下,this question地址都是,但答案似乎需要先读取csv,因为在我的情况下,csv是17GB,这是不可行的,所以我想一些“离线”或流媒体的方法。
1条答案
按热度按时间oiopk7p51#
我使用csv2parquet成功地将一个7GB以上(270万行)的CSV文件转换为 parquet 文件。
过程很简单:
如果您在https://world.openfoodfacts.org/data下载我们的CSV导出文件,则可能会重现此过程