对于rdbms,我们通常使用数字列作为键(外部和主),因为在大多数情况下,与其他数据类型(如字符串)相比,它允许更好的联合查询性能和更小的资源使用。
问题是,Parquet表中键列的数据类型应该是什么?我们能这样做吗:
SELECT * FROM parquet_table1 JOIN parquet_table2 ON t1_string_pk = t2_string_fk
这里的最佳做法是什么?
这个问题的原因是,当将数据加载到数据仓库时,任何数字键列(对于目标表)都需要键表查找([源系统,源键]->代理键),而字符串键列则不需要;我们可以使用源键连接来获得一个字符串代理键值。
暂无答案!
目前还没有任何答案,快来回答吧!