我正在尝试从dynamodb表读取记录。我已经尝试使用动态框架。因为我的表中有800万条记录,所以过滤时间太长。无论如何,我不需要将800万条记录加载到dataframe。而不是在动态框架中应用过滤器。我想知道是否有任何选项可以通过传递查询来加载数据框。这样只有很少的记录加载到数据框中,它会工作得更快。
63lcw9qa1#
您可以通过在spark.sql()中传递查询来加载 Dataframe ,但在此之前,您必须在Dynamo DB表上运行AWS Glue crawler,以便您可以在AWS Glue catalog中获得与Dynamo DB表对应的表,然后您可以使用Glue Catalog中生成的此表直接使用Spark Dataframe 读取数据。
spark.sql()
Dynamo DB
AWS Glue crawler
Glue catalog
Glue Catalog
1条答案
按热度按时间63lcw9qa1#
您可以通过在
spark.sql()
中传递查询来加载 Dataframe ,但在此之前,您必须在Dynamo DB
表上运行AWS Glue crawler
,以便您可以在AWSGlue catalog
中获得与Dynamo DB
表对应的表,然后您可以使用Glue Catalog
中生成的此表直接使用Spark Dataframe 读取数据。