我使用sequence文件在一个hdfs文件中聚合大量二进制记录。我想使用流api(例如作为inputstream或datainputstream)访问spark中的每个聚合文件,类似于sparkcontext.binaryfiles()对常规文件的工作方式。
有没有类似的api,可以为存储在序列文件中的每个二进制块返回inputstream?
另一个问题是spark是否将本地块从hdsf节点加载到内存,或者一个spark进程将读取单个节点上的整个序列文件来创建分布式rdd?
我使用sequence文件在一个hdfs文件中聚合大量二进制记录。我想使用流api(例如作为inputstream或datainputstream)访问spark中的每个聚合文件,类似于sparkcontext.binaryfiles()对常规文件的工作方式。
有没有类似的api,可以为存储在序列文件中的每个二进制块返回inputstream?
另一个问题是spark是否将本地块从hdsf节点加载到内存,或者一个spark进程将读取单个节点上的整个序列文件来创建分布式rdd?
暂无答案!
目前还没有任何答案,快来回答吧!