我有一个hdfs文件夹,里面有许多csv.gz,都使用相同的模式。我的客户需要通过hive读取这些表的内容。
我试着申请https://cwiki.apache.org/confluence/display/hive/compressedstorage . 然而,它移动文件,而我需要它留在其初始目录。
另一个问题是,我应该逐个加载每个文件,我宁愿从目录创建一个表,而不是单独管理文件。
我一点也不精通Hive。他有可能吗?
我有一个hdfs文件夹,里面有许多csv.gz,都使用相同的模式。我的客户需要通过hive读取这些表的内容。
我试着申请https://cwiki.apache.org/confluence/display/hive/compressedstorage . 然而,它移动文件,而我需要它留在其初始目录。
另一个问题是,我应该逐个加载每个文件,我宁愿从目录创建一个表,而不是单独管理文件。
我一点也不精通Hive。他有可能吗?
1条答案
按热度按时间eqfvzcg81#
是的,这可以通过
Hive
. 您可以创建一个外部表并引用现有的HDFS
包含gzip
文件夹。应在表创建期间指定数据的架构。