pyspark爆炸替代性能

yqlxgs2m  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(267)

输入

+------+-------+---------+
| Name | Count | Product |
+------+-------+---------+
| U3F  |     2 |     960 |
+------+-------+---------+

预期产量:

+------+-------+---------+----------+
| Name | Count | Product | RowCount |
| U3F  | 2     | 960     | 0        |
| U3F  | 2     | 960     | 1        |
| U3F  | 2     | 960     | 2        |
| U3F  | 2     | 960     | ...      |
| U3F  | 2     | 960     | 960      |
+------+-------+---------+----------+

我拥有的代码:

from pyspark.sql import functions as F
df.select("*", F.explode(F.sequence(F.lit(0), F.col("Product")-1)).alias("RowCount"))

这最终导致了驱动程序问题。当使用数十亿行进行数据挖掘时,是否有其他方法可以提高性能(我听说flatmap更好,但不熟悉它)?
databricks+aws:r5.2x大;64gb,8核;矿工2人;最大工人数10

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题