我必须实现一个csv文件转换器才能在hadoop集群上运行。主要线路有:
我在hdfs上有一堆csv文件,包含任意内容。
我知道如何使用java代码将它们转换成“标准”的(即具有指定的行)。
转换需要一些参数(大约10或15),每个文件的参数不同。
我不介意对输出文件进行分段。
但我希望他们有一个 input-filename[##].csv
命名以区分它们,以便以后进行处理/可视化。
我的问题是:最好的办法是什么?
作为hadoop的新手,我正在考虑使用map reduce来实现这一点,但是我对输出格式有一些问题。另一方面,我可以使用spark(在scala中使用java代码)。似乎很容易编码,但我不知道怎么做。
对要执行的主要任务的指针意见,来自(更多)有经验的用户将不胜感激。
2条答案
按热度按时间zz2j4svz1#
Spark是个不错的选择。它为您提供了更大的灵活性和快速处理。
g52tjvyc2#
使用spark确实很简单:
我在github中为它做了一个简单的maven项目