我一直在尝试通过配置单元将.csv文件导入hbase,以避免用java编写大容量加载程序。我已经成功地将整个.csv(bilion of rows)加载到了配置单元中,因为我在hbase上遇到了一些问题,所以我尝试只导入前10行,然后再导入其余的行。
问题是,.csv文件并没有为每一行指定唯一的值作为hbase所需的hbase表键。这将导致insert overwrite只插入10行中的最后一行,因为我最初定义为key的列在所有10行上都包含相同的值(但在整个文件中不是这样)
hive/hbase有没有办法生成一个带有递增整数/浮点数/任何其他类型的键列?
1条答案
按热度按时间jjhzyzn01#
我看到了几种解决方案:
hive hbase集成支持复合主键
连接(列)
reflect(“java.util.uuid”,“randomuuid”)
sha1(concatŠws(columns))Š可能会导致冲突
看到了吗https://cwiki.apache.org/confluence/display/hive/hbaseintegration#hbaseintegration-简单复合行键