spark和sequence文件

kmb7vmvb  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(354)

我使用sequence文件在一个hdfs文件中聚合大量二进制记录。我想使用流api(例如作为inputstream或datainputstream)访问spark中的每个聚合文件,类似于sparkcontext.binaryfiles()对常规文件的工作方式。
有没有类似的api,可以为存储在序列文件中的每个二进制块返回inputstream?
另一个问题是spark是否将本地块从hdsf节点加载到内存,或者一个spark进程将读取单个节点上的整个序列文件来创建分布式rdd?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题