我对数据仓库、olap和hive完全陌生。我确实有一个csv文件,其中包含有关ebay这样的在线市场的培训数据(请参阅专栏数据)。我的任务是在hive中创建一个星型模式(通过dataanalyticstudio、spark或其他什么)。
我搭建了如下尺寸:
如何创建这些维度表,尤其是为每一行生成一个新的id?我的 SELECT New_Guid(), listing_title, listing_subtitle, listing_type_code, start_price, buy_it_now_price, buy_it_now_listed_flag, qty_available_per_listing From auctions
,这是我在另一个教程中发现的。但是 New_Guid()
在我的数据分析工作室根本不起作用。
谢谢!
1条答案
按热度按时间k75qkfdt1#
假设尺寸没有历史记录,如果尺寸设计好与否:
对于每个所需尺寸:
读取csv并提取相关字段,并将distinct应用于temp\ U表格
使用为每行添加序列号
select (row_number() over()), Col1, Col2, col3, col4 from temp_table
&持久到维度表对于事实表:
读取csv并提取应用于临时表的相关字段
使用为每行添加序列号
select (row_number() over()), Col1, Col2, col3, col4 from temp_table
并存储在另一个临时表2中用temp\u table\u 2中的适当语句连接到维度,查找/选择给出temp\u table\u 3的序列号
只插入temp\ u table\ 3到fact\ u table的键