从dynamodb和spark读/写什么?

wbgh16ku  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(379)

我想知道从dynamodb和spark读/写什么是最好的。
我试过使用dynamodb的官方api,还有emr连接器(hadoop和hive)等。
但我发现(除其他问题外)要执行查询需要进行完全扫描,而这对于大型表是无效的。
有什么建议吗?

xbp102n0

xbp102n01#

你尝试使用的过程 emr-dynamodb-connector 通常是大多数人使用它的方式。
但是有一个库可以用来连接dynamodb。
一般来说,从spark访问dynamodb是困难的,因为现在您已经将spark执行器与dynamodb节流阀绑定在一起了。你可以尝试的另一种选择是 Hbase 或者 cassandra 我发现spark用法更好地支持它,提供 predicate 下推等。
通常,我在带有spark的集群上使用dynamodb数据的方法是利用dynamodb流。在s3中收集流数据并对该数据应用批处理。

相关问题