spark和sequence文件

kmb7vmvb 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(354)

我使用sequence文件在一个hdfs文件中聚合大量二进制记录。我想使用流api（例如作为inputstream或datainputstream）访问spark中的每个聚合文件，类似于sparkcontext.binaryfiles（）对常规文件的工作方式。
有没有类似的api，可以为存储在序列文件中的每个二进制块返回inputstream？
另一个问题是spark是否将本地块从hdsf节点加载到内存，或者一个spark进程将读取单个节点上的整个序列文件来创建分布式rdd？

hadoop hdfs apache-spark

来源：https://stackoverflow.com/questions/37342618/spark-and-sequence-files

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark和sequence文件

暂无答案！

相关问题

热门标签

最新问答