我有一个Cassandra表,我选择了一些列来对它们执行关联规则。我为每一列创建了case类来保存它们。我有类型为
[超级商店销售RG]**
其中,SuperStoreSalesRG是要将其转换为的单列的case类
RDD[数组[字符串]]
怎么做?!
非常感谢..
这就是我目前所尝试的
val test_spark_rdd = sc.cassandraTable("demo1", "orders4")
case class SuperStoreSalesPC (ProductCategory: String)
case class SuperStoreSalesCS (CustomerSegment: String)
case class SuperStoreSalesRG (Region: String)
val resultPC = test_spark_rdd.select("productcategory").as(SuperStoreSalesPC)
val resultCS = test_spark_rdd.select("customersegment").as(SuperStoreSalesCS)
val resultRG = test_spark_rdd.select("region").as(SuperStoreSalesRG)
我想把每一个val转换成:resultPC,resultCS,resultRG在单独的RDD[Array[String]]中,其中这些值是列
1条答案
按热度按时间gzjq41n41#
将三列
"productcategory", "customersegment", "region"
分成三个数据集resultPC, resultCS, resultRG
后,可执行以下操作将每个数据集datasets
转换为RDD[Array[String]]
第一步是使用内置的
collect_list
函数这将创建
datasets
,其中schema
您可以对其他两个数据集执行相同的操作
最后一步是将收集的
datasets
转换为RDD[Array[String]]
我希望答案对你有帮助