我有2200万条记录作为一个逗号分隔的文件,没有标题。我还有一个单独的文件,其中包含表的所有头(即模式)。我正在使用cloudera的hadoop发行版,并希望特别使用impala对数据进行基本聚合。为此,我首先使用impala和我的头文件创建了一个表。我现在想在这个表中插入2200万条记录。我可以使用普通的sqlinsert操作,但这将是一项乏味的任务。有没有一种方法可以更有效地直接插入这些记录?
我有2200万条记录作为一个逗号分隔的文件,没有标题。我还有一个单独的文件,其中包含表的所有头(即模式)。我正在使用cloudera的hadoop发行版,并希望特别使用impala对数据进行基本聚合。为此,我首先使用impala和我的头文件创建了一个表。我现在想在这个表中插入2200万条记录。我可以使用普通的sqlinsert操作,但这将是一项乏味的任务。有没有一种方法可以更有效地直接插入这些记录?
1条答案
按热度按时间dgiusagp1#
我想您已经使用header模式创建了表。如果您将表创建为以location为文件位置的外部表,那么就很容易了。因此,您可以避免插入任务。参考此