spark如何创建从s3读取的对象的分区?

rmbxnbpk  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(404)

spark如何创建从s3读取的对象的分区?
我在s3中有一个大小为118mb的对象。我把这个物体读入一个胶合动态框架。转换为sparkDataframe并应用了一些转换。然后将数据写回s3。输出文件夹由两个大小分别为51mb和39mb的对象组成。spark如何决定从s3读取的数据的分区方案?
代码如下:

df = glueContext.create_dynamic_frame.from_catalog(database = glueDatabase, table_name = glueTable).toDF()

df = df.filter('student.year != "2005"')

df.write.mode("append").json(s3WritePath)
l7wslrjt

l7wslrjt1#

从s3读取时,默认的分割大小是64mb。例如,对于以下3个文件,拆分如下:

File size       Splits
100MB           64MB, 36MB
23MB            23MB
66MB            64MB, 2MB

相关问题