我们在couchbase中的数据是复制的,所以我们有2倍的记录。我使用sqoop插件couchbase hadoop连接器将数据从couchbase导入hdfs:
我的命令是:
sqoop import--connect$server\u address/pools--table dump--username data db--num mappers 10
例如,如果couchbase中有3条记录:
a123,{姓:史密斯,年龄:20}
b234,{姓:琼斯,年龄:25}
c456,{姓:伯克,年龄:30}
导入后,我会
a123,{姓:史密斯,年龄:20}
a123,{姓:史密斯,年龄:20}
b234,{姓:琼斯,年龄:25}
b234,{姓:琼斯,年龄:25}
c456,{姓:伯克,年龄:30}
c456,{姓:伯克,年龄:30}
在hdfs中。
这是非常烦人的,因为我们有数以百万计的数据,有2倍的一切运行时间翻倍。我真希望能有办法消除重复的东西。
非常感谢您提供的任何帮助或提示:)
----->此外,如果您阅读了连接器的文档,其中一个限制是您无法查询特定的数据。
暂无答案!
目前还没有任何答案,快来回答吧!