我有一个列族,在2节点集群上有147.968行(显示“nodetool cfstats”)。
如果我执行hadoop作业,他在“map input records”上只显示90.174行?我的hadoop cql输入配置是:
ConfigHelper.setInputRpcPort(job.getConfiguration(), "9160");
ConfigHelper.setInputInitialAddress(job.getConfiguration(), "xxx.xxx.xxx.xxx");
ConfigHelper.setInputColumnFamily(job.getConfiguration(), KEYSPACE, "columnfamilyname");
ConfigHelper.setInputPartitioner(job.getConfiguration(), "Murmur3Partitioner");
还有什么需要配置的吗?
1条答案
按热度按时间bvjxkvbb1#
你的输入/输出格式是什么?最好使用cqlpaginginputformat。fty公司。cql表行与列族行不同,因此如果使用cqlpaginginputformat,则获得的行数应与从cqlsh获得的行数相同。