hadoop—将分区数据插入配置单元中的外部表

w6lpcovy  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(334)

关于在外部表中插入数据,我需要一些澄清。
我创建了一个外部Parquet表,它是按周划分的,指向一个hadoop位置,之后我将数据(一个.csv文件)移动到那个位置。
我的疑问是,因为表是按周分区的,即使我只是将文件移到那个目录,配置单元也不会读取,我必须使用insert命令,而不是说当我们有一个配置单元表没有分区时,它将直接从hadoop路径读取

dwthyt8l

dwthyt8l1#

您需要考虑csv中包含哪些数据。例如,如果按年份对定时数据进行分区,则不会将包含多个年份值的csv复制到单个分区中。您需要拆分数据集。
即使我只是将文件移动到那个目录,配置单元也不会读取,我必须使用insert命令
对的。尤其是因为这是一个Parquet镶嵌者试图读取csv。
为了澄清,如果将配置单元放在以文本形式存储的表中,它将读取csv。
您需要一个单独的表,在其中可以读取文本文件,然后插入到另一个表中,同时转换文件格式

相关问题