在Apache Spark中，流水线RDD和普通RDD有什么区别？

db2dz4w8 于 2023-01-21 发布在 Apache

关注(0)|答案(1)|浏览(150)

现在，我尝试使用下面的代码从hdfs加载数据，并尝试使用函数"jsonParse"将值连接到普通csv，以便我可以根据需要获得普通字符串RDD，但似乎此方法不起作用，当我尝试打印一些记录时，它告诉我"data"变量是一个不可迭代的PipelinedRDD，任何人都可以告诉我如何才能得到'数据'（正常的rdd）想要的，谢谢：

def jsonParse(x):
    s=json.loads(x)
    print "ssssssssssss"+s['age']+","+s['sex']+","+s['xueya']+","+s['danguchun']+","+s['na']+","+s['k']+","+s['yaowu']
    return s['age']+","+s['sex']+","+s['xueya']+","+s['danguchun']+","+s['na']+","+s['k']+","+s['yaowu']

conf = SparkConf()
sc = SparkContext(conf=conf)
hc = HiveContext(sc)
#json=sc.textFile('hdfs://hacluster/new')
json=hc.sql("select * from default.test_yj_200 limit 1000").toJSON()

data=json.map(jsonParse)

apache-spark

来源：https://stackoverflow.com/questions/44916005/whats-the-difference-between-pipelinedrdd-and-normal-rdd-in-apache-spark