我需要从hdfs加载一些数据到hive。但我需要在hdfs中的文件之间进行一些聚合。我听说sqoop可以做到这一点,但只能使用mysql。我还有什么选择?谢谢!
xqk2d5yq1#
最好的选择是在配置单元中创建一个外部表,该表来自hdfs中的文件。然后可以创建一个配置单元表来存储聚合的数据,并创建一些配置单元sql来插入到该表中。
1条答案
按热度按时间xqk2d5yq1#
最好的选择是在配置单元中创建一个外部表,该表来自hdfs中的文件。然后可以创建一个配置单元表来存储聚合的数据,并创建一些配置单元sql来插入到该表中。