在aws glue中,我从glue动态框架中的数据目录中读取数据。然后将动态帧转换为spark dataframe以应用模式转换。为了将数据写回s3,我见过开发人员将Dataframe转换回dynamicframe。与编写glue动态帧相比,编写sparkDataframe有什么优势吗?
11dmarpk1#
您将发现,在使用Dataframe时,只有动态帧编写器类才能使用以下功能:当您想要利用到jdbc源的连接时,也要基于s3源写入目录表。i、 e使用 from_jdbc_conf 使用格式写入Parquet地板 glueparquet 作为一种格式。使用书签跟踪目标位置中已处理的文件这些是我能想到的一些用例,但是如果你有一个需要使用保存模式的用例,例如, mode('overwrite') 你可以使用Dataframe。然而,在动态帧中存在类似的方法,但实现方式略有不同。你可以看看 [purge_s3_path][3] 然后写。
from_jdbc_conf
glueparquet
mode('overwrite')
[purge_s3_path][3]
1条答案
按热度按时间11dmarpk1#
您将发现,在使用Dataframe时,只有动态帧编写器类才能使用以下功能:
当您想要利用到jdbc源的连接时,也要基于s3源写入目录表。i、 e使用
from_jdbc_conf
使用格式写入Parquet地板glueparquet
作为一种格式。使用书签跟踪目标位置中已处理的文件
这些是我能想到的一些用例,但是如果你有一个需要使用保存模式的用例,例如,
mode('overwrite')
你可以使用Dataframe。然而,在动态帧中存在类似的方法,但实现方式略有不同。你可以看看[purge_s3_path][3]
然后写。