java—基于spark数据集中的列对数据进行分组后的示例数据

iyr7buue 于 2021-05-24 发布在 Spark

关注(0)|答案(1)|浏览(455)

我有一个spark数据集，格式如下：

Id dataset

id1,[name1,name2,name3...name100]
id2,[name1,name2,name3,nam4....name100000]
id3,[name1,name2,name3.....name1000]

我想为每个id随机抽取50%的名称样本。我知道spark有一个sample函数。但是我可以根据数据集的每一行将百分比传递给它吗？每一行的名称计数将不同。
这就是我尝试过的：

WindowSpec window = Window.partitionBy(col("id")).orderBy(functions.rand());

 idDataset.select(col("name"), functions.rank().over(window).alias("rank"))
                .filter(functions.col("rank") = .05 ).drop("rank");

这里的0.05意味着我需要为每个id随机抽取50%的名字样本。

Java Dataset apache-spark

来源：https://stackoverflow.com/questions/64108375/sample-data-after-grouping-it-based-on-a-column-in-spark-dataset

1条答案

按热度按时间

vu8f3i0k1#

一种选择是使用内置的sql函数。
您可以使用transform为每个名称指定一个介于0.0和1.0之间的随机值，然后过滤掉随机数大于阈值（本例中为0.5）的所有名称。

import static org.apache.spark.sql.functions.*;

df.withColumn("sampled",
       expr("filter(transform(names, n -> (n, rand())), n -> n.col2 <= 0.5).n"))
  .show(false);

输出：

+---+------------------------------------------+----------------------------+
|id |names                                     |sampled                     |
+---+------------------------------------------+----------------------------+
|id1|[name1, name2, name3, name4]              |[name3]                     |
|id2|[name1, name2, name3, name4, name5, name6]|[name1, name2, name5, name6]|
|id3|[name1, name2, name3]                     |[name1, name2]              |
+---+------------------------------------------+----------------------------+

赞(0）回复(0）举报 2021-05-24

我来回答

java—基于spark数据集中的列对数据进行分组后的示例数据

1条答案

相关问题

热门标签

最新问答