scala中数组到spark数据集的转换

3pvhb19x 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(414)

我正在尝试从4个数组创建一个数据集。我有这样的数组：

// Array 1
val rawValues = rawData.select(collect_list("rawValue")).first().getList[Double](0).asScala.toArray

// Array 2 
var trendValues = Array[Double]()

// Array 3 
var seasonalValues = Array[Double]()

// Array 4     
var remainder = Array[Double]()

我已经根据对第一个数组的一些计算（这里不包括）填充了最后3个数组。所有4个数组的大小都相同，为了填充第一个数组，另一个数据集的列rawvalue被转换成一个数组，如上所示。
在完成所有的计算之后，我想创建一个数据集，它有4个独立的列，并且每一列都代表4个独立的数组。
那么，基本上如何从数组创建数据集呢？我也在努力做同样的事。
请帮忙。

scala apache-spark Arrays apache-spark-dataset

来源：https://stackoverflow.com/questions/61669860/convert-arrays-into-spark-dataset-in-scala

1条答案

按热度按时间

1zmg4dgp1#

你只需要把他们聚在一起：

case class ArrayMap(rawValues: Double, trendValues: Double, seasonalValues: Double, remainder: Double)

import spark.implicits._
val data = for(i <- arr1.indices) yield ArrayMap(arr1(i), arr2(i) ,arr3(i) ,arr4(i))
data.toDF()

//or else, but takes more steps
arr1.zip(arr2).zip(arr3).zip(arr4)
  .map(a => ArrayMap(a._1._1._1, a._1._1._2, a._1._2, a._2))
  .toSeq.toDF()

使用 zipAll 如果数组大小不同。
编辑：
我不确定数据是如何向下流动的用例，但是如果您试图从dataframe创建所有4个数组，我建议您在dataframe中转换它，而不是采用这种方法（尤其是在数据大小很大的情况下）。

赞(0）回复(0）举报 2021-05-27

我来回答

scala中数组到spark数据集的转换

1条答案

相关问题

热门标签

最新问答