如何将hdfs文件块与应用于同一数据节点上不同文件/表的相同/共享分区放在一起

rggaifut 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(254)

我有两个按日期列划分的大表。它们在hdfs中保存为Parquet文件。每个分区被64MB的块分割，并在集群机器上复制3次。为了优化连接操作，我希望在相同的机器上放置相同的日期分区（任何连接键值都只放置在一个日期分区中）。
spark中有一个partitioner对象，它可以帮助在集群中分布不同rdd的块。这和我的问题很相似，但我担心在保存这些rdd之后，hdfs机制可能会洗牌这些rdd的文件块。解释：rdd是spark示例，df方法saveastable（…）调用（我想）一些选择数据节点并复制数据的低级函数。
有谁能帮我知道我的表块的分布方式是否正确吗？

hadoop Hive hdfs apache-spark hadoop2

来源：https://stackoverflow.com/questions/52422713/how-to-place-hdfs-file-blocks-with-same-shared-partitioning-applied-for-differ