我使用ApacheCassandra(1.2)和ApacheMapReduce来处理一些数据。现在我用 CqlPagingInputFormat
来自org.apache.cassandra.hadoop.cql3。这个提供者使用节俭来获取数据。thrift似乎相当慢(3节点集群中的300m记录需要8个多小时才能读取),而且由于存在本机二进制协议,我想知道是否有人使用过它。
我不感兴趣的任何其他优化和配置调整-这是一个单独的问题。
我的问题是
是否有直接使用cassandra本机协议的map reduce输入格式化程序的实现?
如果不是,那么我自己写的第一步是什么,例如使用datastax驱动程序?
1条答案
按热度按时间r6hnlfcb1#
cassandra 2.0.7包括cql hadoop类的本机协议类似物:
org.apache.cassandra.hadoop.cql3.cqlinputformat org.apache.cassandra.hadoop.cql3.cqlrecordreader org.apache.cassandra.hadoop.cql3.cqlconfighelper
examples/hadoop\u cql3\u word\u count中的wordcount代码已经更新为使用这些类。
介绍这一点的jira是https://issues.apache.org/jira/browse/cassandra-6311