这个问题在这里已经有答案了:
在pyspark 2.0中读取序列文件(2个答案)
两年前关门了。
sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)
这个很好用
sqlContext.read.format('sequencefile').load(hdfspath)
但是sequencefile格式不是这样工作的。
如何在pyspark中将序列文件作为Dataframe读取?
1条答案
按热度按时间js5cn81o1#
使用
sequenceFile
sparkcontext中的方法: