配置单元数据流问题

c2e8gylq  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(284)

我在hdinsights/azurespark2.2集群上使用hive,通过ambari提交查询,数据存储在azuredatalake的外部表中。暂存表和目标表是分区的。
我今天一直在忙着在Hive里加载数据。数据流来自.gz文件->暂存表->目标表。这是一个增量加载,从目标到目标的左连接以保留旧数据,然后将所有数据与整个集合的新数据合并。
我注意到一些行为对我来说很奇怪,希望能收集更多的见解。
观察1:在运行完脚本之后,我注意到新数据不在staging中,也不在原始table/gz文件的目标中。我可没料到会有这样的工会。
观察结果2:我做了一个步骤,从.gz文件/表手动将数据加载到我的staging表中。我对它进行了简单的计数。它返回39k,太好了。我试着运行一个selectwhere val=xyz,它返回记录,再次很棒。我在那个表达式上加了一个count(),开始返回0条记录。
抱歉,如果我的想法混乱,但想知道是否有人谁经历过类似的事件,以及如何克服它们。如果需要澄清,请告诉我。

wz8daaqr

wz8daaqr1#

你确定你的钥匙里没有空格吗?你试过修剪(val)吗?
观察结果2非常令人惊讶:在同一where predicate 中,返回的行中有select*,但没有select(*)?
您能包括sql查询和一些数据行吗?

相关问题