我一直在尝试将一个2tb的表从teradata db导入到hive。这是我正在尝试的全表导入。后台生成的查询非常简单:
SELECT A, B, C FROM TABLE WHERE (A>=0) AND (A<100000);
当然,范围是根据一列的最小值、最大值和我在sqoop查询中提供的Map器的数量来决定的。
这个问题可能不是非常特定于sqoop,但是因为它在活动中使用,所以我在这里也对它进行了标记。teradata db中的spool空间已经满了,达到了令人震惊的8TB。表几乎没有2 tb,而占用的spool达到8 tb。
我真的不知道spool在teradata db的背景下会有什么变化。有没有人知道在后台到底发生了什么,有什么解决办法?
谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!