- 已关闭**。此问题需要超过focused。当前不接受答案。
- 想要改进此问题吗?**更新此问题,使其仅关注editing this post的一个问题。
18小时前关门了。
Improve this question
目前正在处理将大csv转换为指定格式(. txt、. xls、xlsx)的过程。
此过程将在GCP Cloud Run(带8C和32GB内存)中的Docker容器中运行
我试过dataframe库(panda,dask),它们有输出不同文件格式的方法,但它们总是花时间(大约3000秒)。
Dataframe 库不是为这些任务而构建的吗?不对这些文件做任何分析工作,只是转换它们。
1条答案
按热度按时间bzzcjhmw1#
数据框架库可能比特定的转换工具效率更低,因为它们被设计成将数据读入内存并高效地对数据进行操作,而不仅仅是将数据从一个文件转换为另一个文件。
有一些特定的开源工具是为快速转换文件而设计的,它们可能更适合这种类型的工作https://github.com/mentax/csv2xlsx。
但是,如果数据集很大,从磁盘读取数据所需的I/O量可能会成为瓶颈。您也可以尝试其他磁盘类型https://cloud.google.com/compute/docs/disks/performance