我是一个新手在大数据,我有一个任务,其中我被赋予了一个csv文件和日期字段是该文件中的字段之一。文件大小只有10gb,但我需要创建一个更大的文件,2tb大小,用于大数据实践目的,通过复制文件的内容,但增加日期,以便使复制的记录不同于原始记录。然后通过配置单元访问新的2tb文件。需要帮助我如何最好的方式来实现这一点吗?在hadoop或python中使用pig最好吗?
w51jfk4q1#
这真的取决于你想实现什么,你用什么硬件。如果您需要快速处理此文件,并且您实际上拥有真正的hadoop集群(大于1或2个节点),那么最好的方法可能是编写pig脚本,甚至简单的hadoop mapreduce作业来处理此文件。使用这种方法,您可以在hdfs上获得输出文件,这样就可以通过hive轻松访问它。另一方面,如果您有一台计算机或一些“玩具”hadoop集群处理该文件,那么使用hadoop将比简单地在此文件上执行python脚本花费更长的时间。这是因为hadopp处理在数据序列化和通过网络发送数据方面有相当大的开销。当然,在这种情况下,您将不得不处理一个事实,即输入和输出文件可能不适合您自己的ram。
1条答案
按热度按时间w51jfk4q1#
这真的取决于你想实现什么,你用什么硬件。
如果您需要快速处理此文件,并且您实际上拥有真正的hadoop集群(大于1或2个节点),那么最好的方法可能是编写pig脚本,甚至简单的hadoop mapreduce作业来处理此文件。使用这种方法,您可以在hdfs上获得输出文件,这样就可以通过hive轻松访问它。
另一方面,如果您有一台计算机或一些“玩具”hadoop集群处理该文件,那么使用hadoop将比简单地在此文件上执行python脚本花费更长的时间。这是因为hadopp处理在数据序列化和通过网络发送数据方面有相当大的开销。当然,在这种情况下,您将不得不处理一个事实,即输入和输出文件可能不适合您自己的ram。