java和spark新手在此寻求帮助:有没有一种方法可以创建一个数据集,其中一列包含从1到n的递增值?
Dataset<Row> ds = ss.createDataSet("column-name", 1, 1000);
上述方法有点粗糙,因为没有 createDataSet 但我正在寻找一些沿着这些线,可以懒洋洋地创造的内容 ds .
createDataSet
ds
qni6mghb1#
假设您使用的是Java8+
int n = 1000; List<Integer> intList = IntStream.range(1, n+1).boxed().collect(Collectors.toList()); Encoder<Integer> integerEncoder = Encoders.INT(); Dataset<Integer> primitiveDS = spark.createDataset(intList, integerEncoder);
还要记住,当您尝试在spark中创建数据集时,您需要创建/传递一个自生成的数据列表,该列表完全在spark中生成 driver .
driver
1条答案
按热度按时间qni6mghb1#
假设您使用的是Java8+
还要记住,当您尝试在spark中创建数据集时,您需要创建/传递一个自生成的数据列表,该列表完全在spark中生成
driver
.