pyspark 从dynamodb加载 Dataframe - aws glue打印

6fe3ivhb  于 2023-01-01  发布在  Spark
关注(0)|答案(1)|浏览(196)

我正在尝试从dynamodb表读取记录。我已经尝试使用动态框架。因为我的表中有800万条记录,所以过滤时间太长。无论如何,我不需要将800万条记录加载到dataframe。而不是在动态框架中应用过滤器。我想知道是否有任何选项可以通过传递查询来加载数据框。这样只有很少的记录加载到数据框中,它会工作得更快。

63lcw9qa

63lcw9qa1#

您可以通过在spark.sql()中传递查询来加载 Dataframe ,但在此之前,您必须在Dynamo DB表上运行AWS Glue crawler,以便您可以在AWS Glue catalog中获得与Dynamo DB表对应的表,然后您可以使用Glue Catalog中生成的此表直接使用Spark Dataframe 读取数据。

相关问题