apachespark—根据pyspark中的数据大小写入文件数

czq61nw1 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(186)

我有一个我正在研究的用例。
我有100gb的数据，我通过spark读取。在读取并应用一些转换之后，我将数据写回存储器。
问题是在编写数据时，我按国家对数据进行了划分。现在，所发生的是，对于一些国家，数据是以gbs为单位的，但是对于一些国家，数据是以mbs为单位的。
因为我使用的是coalesce（100），所以在100个文件中保存gbs的数据是没有问题的，但是在100个文件中保存几个mbs是有问题的。
所以我想根据特定国家的行数在分区中创建文件数。

apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/62865553/write-number-of-files-on-basis-of-size-of-data-in-pyspark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

apachespark—根据pyspark中的数据大小写入文件数

暂无答案！

相关问题

热门标签

最新问答