pyspark Dataframe :如何添加一列自动生成随机整数,数据块

tf7tbtn2  于 2023-08-02  发布在  Spark
关注(0)|答案(1)|浏览(179)

有一个现有的数据框,如何添加一个名为“评级”的列,以随机弹出4-9(4,5,6,7,8,9)之间的整数?
df:
| 姓名、名称| Name |
| --| ------------ |
| 某某| xyz |
| 操作队列| opq |
| 兆秒| mns |
我需要有这样一个表,其中添加了4到9之间的随机值
| 姓名、名称|额定值| rating |
| --|--| ------------ |
| 某某|八个| 8 |
| 操作队列|五个| 5 |
| 兆秒|七个| 7 |
剧本怎么写的?- 谢谢-谢谢

7jmck4yq

7jmck4yq1#

使用pyspark使用这个'兰德'内部函数,使用withColumn可以添加一个带有随机变量的新列。

df.withColumn('rating', rand(seed=42) * 10)

字符串
对于复杂的赋值使用UDF函数。下面的文档链接
https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.sql.functions.rand.html
https://sparkbyexamples.com/pyspark/pyspark-udf-user-defined-function/

相关问题