我想知道从dynamodb和spark读/写什么是最好的。我试过使用dynamodb的官方api,还有emr连接器(hadoop和hive)等。但我发现(除其他问题外)要执行查询需要进行完全扫描,而这对于大型表是无效的。有什么建议吗?
xbp102n01#
你尝试使用的过程 emr-dynamodb-connector 通常是大多数人使用它的方式。但是有一个库可以用来连接dynamodb。一般来说,从spark访问dynamodb是困难的,因为现在您已经将spark执行器与dynamodb节流阀绑定在一起了。你可以尝试的另一种选择是 Hbase 或者 cassandra 我发现spark用法更好地支持它,提供 predicate 下推等。通常,我在带有spark的集群上使用dynamodb数据的方法是利用dynamodb流。在s3中收集流数据并对该数据应用批处理。
emr-dynamodb-connector
Hbase
cassandra
1条答案
按热度按时间xbp102n01#
你尝试使用的过程
emr-dynamodb-connector
通常是大多数人使用它的方式。但是有一个库可以用来连接dynamodb。
一般来说,从spark访问dynamodb是困难的,因为现在您已经将spark执行器与dynamodb节流阀绑定在一起了。你可以尝试的另一种选择是
Hbase
或者cassandra
我发现spark用法更好地支持它,提供 predicate 下推等。通常,我在带有spark的集群上使用dynamodb数据的方法是利用dynamodb流。在s3中收集流数据并对该数据应用批处理。