来自sequencefile的sparkDataframe

50pmv0ei  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(338)

这个问题在这里已经有答案了

在pyspark 2.0中读取序列文件(2个答案)
两年前关门了。

sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)

这个很好用

sqlContext.read.format('sequencefile').load(hdfspath)

但是sequencefile格式不是这样工作的。
如何在pyspark中将序列文件作为Dataframe读取?

js5cn81o

js5cn81o1#

使用 sequenceFile sparkcontext中的方法:

from pyspark.sql.functions import input_file_name 

df = sc.sequenceFile("/tmp/foo/").toDF()

相关问题