与 SparkSQL 你有 Random Data Generation SQL functions 很容易做到这一点。 您可以生成填充有均匀正态分布的随机值的列。 这对于随机算法、原型设计和性能测试非常有用。 例如:
import org.apache.spark.sql.functions.{rand, randn}
val dfr = sqlContext.range(0,20) // range can be what you want
val randomValues = dfr.select("id")
.withColumn("uniform", rand(10L)) // uniform distribution
.withColumn("normal", randn(10L)) // normal distribution
randomValues.show(truncate = false)
1条答案
按热度按时间xfb7svmp1#
与
SparkSQL
你有Random Data Generation SQL functions
很容易做到这一点。您可以生成填充有均匀正态分布的随机值的列。
这对于随机算法、原型设计和性能测试非常有用。
例如:
输出