如何在hdfs文件夹上创建一个包含子文件夹和多个csv文件的表

j5fpnvbx  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(434)

我们有一个hdfs文件夹,其结构如下 /data/year/day/.csvfiles ,因此我们每天在hdfs文件夹中存储多个csv文件,例如。 /finance/2019/20190101/ multiple csv files . 类似地,在中会有365个文件夹 /finance/2019/ 一年365天。我想在 /finance/2019/ 因此,我可以查询所有数据,但是只有在指定特定文件夹(如 /finance/2019/20190101/ ,然后查询返回resultset。如果我尝试创建位置为 /finance/2019/ 该表无法检索任何数据,结果始终为0。

qhhrdooz

qhhrdooz1#

从中读取数据 subdirectories 设置这些属性!

hive> SET hive.mapred.supports.subdirectories=TRUE;
hive> SET mapred.input.dir.recursive=TRUE;

再次尝试从配置单元表中选择数据。
如果您不想每次在hiveshell中都设置这些属性,那么请将这些属性添加到 hive-site.xml 文件

<property>
    <name>mapred.input.dir.recursive</name>
    <value>true</value>
  </property>

  <property>
    <name>hive.mapred.supports.subdirectories</name>
    <value>true</value>
  </property>

相关问题