pyspark-读取sequencefile并将其转换为dataframe

e5nszbig  于 2021-05-18  发布在  Spark
关注(0)|答案(1)|浏览(636)

我在hdfs中有一个sequencefile,我想转换成一个Dataframe并插入到一个表中。我在转换部分遇到了一些麻烦。
我有这个密码:

myseqFile = sc.sequenceFile("/user/sequencefile")

我得到了以下结构:

(u' 10', u' 10,34,Center,Tatic')

我需要得到以下Dataframe:

10,10,34,Center,Tatic

为此,我尝试使用以下代码:

res=myseqFile .map(lambda x: tuple(x)).map(lambda x: str(x).split(",")).map(lambda x: (x[0],x[1],x[2],x[3],x[4]))

但我还是得到了同样的结果:

(u' 10', u' 10,34,Center,Tatic')

如何获得所需的输出?

oxiaedzo

oxiaedzo1#

可能是这样的:

res=myseqFile .map(lambda x: x[0] + ',' + x[1]).map(lambda x: str(x).split(",")).map(lambda x: (x[0],x[1],x[2],x[3],x[4]))

相关问题