输入
+------+-------+---------+
| Name | Count | Product |
+------+-------+---------+
| U3F | 2 | 960 |
+------+-------+---------+
预期产量:
+------+-------+---------+----------+
| Name | Count | Product | RowCount |
| U3F | 2 | 960 | 0 |
| U3F | 2 | 960 | 1 |
| U3F | 2 | 960 | 2 |
| U3F | 2 | 960 | ... |
| U3F | 2 | 960 | 960 |
+------+-------+---------+----------+
我拥有的代码:
from pyspark.sql import functions as F
df.select("*", F.explode(F.sequence(F.lit(0), F.col("Product")-1)).alias("RowCount"))
这最终导致了驱动程序问题。当使用数十亿行进行数据挖掘时,是否有其他方法可以提高性能(我听说flatmap更好,但不熟悉它)?
databricks+aws:r5.2x大;64gb,8核;矿工2人;最大工人数10
暂无答案!
目前还没有任何答案,快来回答吧!