python—通过多次复制和修改源csv中的现有记录来创建新的csv

qjp7pelc 于 2021-06-21 发布在 Pig

关注(0)|答案(1)|浏览(353)

我是一个新手在大数据，我有一个任务，其中我被赋予了一个csv文件和日期字段是该文件中的字段之一。文件大小只有10gb，但我需要创建一个更大的文件，2tb大小，用于大数据实践目的，通过复制文件的内容，但增加日期，以便使复制的记录不同于原始记录。然后通过配置单元访问新的2tb文件。需要帮助我如何最好的方式来实现这一点吗？在hadoop或python中使用pig最好吗？

Hive python csv apache-pig

来源：https://stackoverflow.com/questions/37727899/creating-new-csv-by-duplicating-and-modifying-existing-records-multiple-times-fr

1条答案

按热度按时间

w51jfk4q1#

这真的取决于你想实现什么，你用什么硬件。
如果您需要快速处理此文件，并且您实际上拥有真正的hadoop集群（大于1或2个节点），那么最好的方法可能是编写pig脚本，甚至简单的hadoop mapreduce作业来处理此文件。使用这种方法，您可以在hdfs上获得输出文件，这样就可以通过hive轻松访问它。
另一方面，如果您有一台计算机或一些“玩具”hadoop集群处理该文件，那么使用hadoop将比简单地在此文件上执行python脚本花费更长的时间。这是因为hadopp处理在数据序列化和通过网络发送数据方面有相当大的开销。当然，在这种情况下，您将不得不处理一个事实，即输入和输出文件可能不适合您自己的ram。

赞(0）回复(0）举报 2021-06-21

我来回答

python—通过多次复制和修改源csv中的现有记录来创建新的csv

1条答案

相关问题

热门标签

最新问答