将csv数据从外部源引入hdfs并以特定格式存储的过程和工具是众所周知的;但是,如何为hdfs中已经存在的数据转换数据格式?
我正在处理hdfs上json格式/未压缩的现有数据集(~multi-tb)。如何将集群上的数据转换为同一集群上的Parquet,同时最小化集群资源?
选项:
临时获取另一个相同大小的集群,并在转换时移动所有数据,然后移回数据?
是否临时补充现有群集上的其他节点?如何确保它们仅用于此迁移?
??
谢谢,
马特
将csv数据从外部源引入hdfs并以特定格式存储的过程和工具是众所周知的;但是,如何为hdfs中已经存在的数据转换数据格式?
我正在处理hdfs上json格式/未压缩的现有数据集(~multi-tb)。如何将集群上的数据转换为同一集群上的Parquet,同时最小化集群资源?
选项:
临时获取另一个相同大小的集群,并在转换时移动所有数据,然后移回数据?
是否临时补充现有群集上的其他节点?如何确保它们仅用于此迁移?
??
谢谢,
马特
1条答案
按热度按时间jaql4c8m1#
您可以编写一个java代码,使用
ParquetOutputFormat
班级。看看这里的实木地板实施。代码如下: