我正在从一张table上搬一张table oracle database
至 AWS S3
&然后创建一个 hive
table在上面。
导入数据后,数据库中记录的顺序是否保留在配置单元表中?
我想使用javajdbc从数据库和hive中提取几百行,然后比较其中的每一行 ResultSet
. 假设我没有主键,我能比较两个主键的行吗 ResultSets
当它们出现时(按顺序,使用 resultSet.next()
)或者订单会因为并行导入而改变吗?
如果秩序得不到维护 ORDER BY
是个不错的选择吗?
1条答案
按热度按时间oprakyz71#
导入过程中不保留顺序,选择“无”时也不确定顺序
ORDER BY
或者DISTRIBUTE+SORT
由于并行选择处理。您需要指定
order by
选择数据时,无论数据是如何插入的。按订单订购所有数据,将在单个减速机上工作,按每个减速机分配+排序订单,并在分布式模式下工作。
也可以看到这个答案https://stackoverflow.com/a/40264715/2700344