pyspark 从dynamodb加载 Dataframe - aws glue打印

6fe3ivhb 于 2023-01-01 发布在 Spark

关注(0)|答案(1)|浏览(197)

我正在尝试从dynamodb表读取记录。我已经尝试使用动态框架。因为我的表中有800万条记录，所以过滤时间太长。无论如何，我不需要将800万条记录加载到dataframe。而不是在动态框架中应用过滤器。我想知道是否有任何选项可以通过传递查询来加载数据框。这样只有很少的记录加载到数据框中，它会工作得更快。

pyspark

来源：https://stackoverflow.com/questions/74937524/loading-dataframe-from-dynamodb-aws-glue-pyspark

1条答案

按热度按时间

63lcw9qa1#

您可以通过在spark.sql()中传递查询来加载 Dataframe ，但在此之前，您必须在Dynamo DB表上运行AWS Glue crawler，以便您可以在AWS Glue catalog中获得与Dynamo DB表对应的表，然后您可以使用Glue Catalog中生成的此表直接使用Spark Dataframe 读取数据。

赞(0）回复(0）举报 2023-01-01

我来回答

pyspark 从dynamodb加载 Dataframe - aws glue打印

1条答案

相关问题

热门标签

最新问答