从dynamodb和spark读/写什么？

wbgh16ku 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(393)

我想知道从dynamodb和spark读/写什么是最好的。
我试过使用dynamodb的官方api，还有emr连接器（hadoop和hive）等。
但我发现（除其他问题外）要执行查询需要进行完全扫描，而这对于大型表是无效的。
有什么建议吗？

hadoop Hive apache-spark amazon-dynamodb

来源：https://stackoverflow.com/questions/48425922/what-to-use-to-read-write-from-dynamodb-from-spark

1条答案

按热度按时间

xbp102n01#

你尝试使用的过程 emr-dynamodb-connector 通常是大多数人使用它的方式。
但是有一个库可以用来连接dynamodb。
一般来说，从spark访问dynamodb是困难的，因为现在您已经将spark执行器与dynamodb节流阀绑定在一起了。你可以尝试的另一种选择是 Hbase 或者 cassandra 我发现spark用法更好地支持它，提供 predicate 下推等。
通常，我在带有spark的集群上使用dynamodb数据的方法是利用dynamodb流。在s3中收集流数据并对该数据应用批处理。

赞(0）回复(0）举报 2021-05-29

我来回答

从dynamodb和spark读/写什么？

1条答案

相关问题

热门标签

最新问答