apachespark—根据pyspark中的数据大小写入文件数

czq61nw1  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(186)

我有一个我正在研究的用例。
我有100gb的数据,我通过spark读取。在读取并应用一些转换之后,我将数据写回存储器。
问题是在编写数据时,我按国家对数据进行了划分。现在,所发生的是,对于一些国家,数据是以gbs为单位的,但是对于一些国家,数据是以mbs为单位的。
因为我使用的是coalesce(100),所以在100个文件中保存gbs的数据是没有问题的,但是在100个文件中保存几个mbs是有问题的。
所以我想根据特定国家的行数在分区中创建文件数。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题