基于hdfs上的csv文件创建一个外部配置单元表的最佳实践是什么?

r9f1avp5  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(399)

这个问题与我在stackoverflow上发现的不同,因为数据的大小不同,它不是重复的。
我们正在使用cloudera。
我已经看到了在头文件中只有少数列的小型xlsx文件的解决方案,在我的例子中,要加载到新配置单元表中的csv文件有618列。
如果我通过hue->file browser上传(先保存到csv),它会默认保存为parquet吗?如果没有,在哪里可以指定文件格式?
基于该位置创建外部impala表的最佳方法是什么?如果我需要手动创建ddl/模式,这绝对是难以置信的,因为有太多的列。
非常感谢你。

fdx2calv

fdx2calv1#

答案:
文本文件是通过配置单元表生成的默认文件格式。但它可以在 hive.default.fileformat 或者可以在创建表时显式地提到它。你可以上传csv文件到任何目录,你想在hdfs。一旦数据存在hdfs中,就可以在csv数据上创建一个表。创建表时,可以指定格式。
使用色调创建表格。它根据csv文件中的标题行动态生成列名。它假定每个字段都是字符串数据类型。我们需要显式地处理数据类型。在中创建表之后 hive metastore 可以通过hive和impala查询使用。
这篇文章将提供一个良好的开端:http://gethue.com/hadoop-tutorial-create-hive-tables-with-headers-and/
简而言之,将数据移动到(如下所示)
hdfs=>使用hue创建表(注意数据类型)=>现在使用impala编辑器查询数据。

相关问题