我需要将hdfs中的文本文件移动到awss3。hdfs中的文件是文本文件和非分区文件,迁移后的s3文件的输出应该在orc中,并在特定列上分区。最后,在这个数据上创建一个配置单元表。实现这一点的一种方法是使用spark。但我想知道,这是否可能使用distcp复制文件作为orc。想知道有没有其他最好的选择来完成上述任务。提前谢谢。
66bbxpm51#
distcp只是一个copy命令;它不做任何转换。您正在尝试执行一个查询,生成一些orc格式的输出。您必须使用hive、spark或hadoopmapreduce这样的工具来完成。
1条答案
按热度按时间66bbxpm51#
distcp只是一个copy命令;它不做任何转换。您正在尝试执行一个查询,生成一些orc格式的输出。您必须使用hive、spark或hadoopmapreduce这样的工具来完成。