hadoop—为paquet连接列(即键)选择数据类型

5gfr0r5j  于 2021-05-27  发布在  Hadoop
关注(0)|答案(0)|浏览(284)

对于rdbms,我们通常使用数字列作为键(外部和主),因为在大多数情况下,与其他数据类型(如字符串)相比,它允许更好的联合查询性能和更小的资源使用。
问题是,Parquet表中键列的数据类型应该是什么?我们能这样做吗:

SELECT * FROM parquet_table1 JOIN parquet_table2 ON t1_string_pk = t2_string_fk

这里的最佳做法是什么?
这个问题的原因是,当将数据加载到数据仓库时,任何数字键列(对于目标表)都需要键表查找([源系统,源键]->代理键),而字符串键列则不需要;我们可以使用源键连接来获得一个字符串代理键值。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题