spark从位置分隔文件读取

py49o6xq  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(490)

我有一个问题,我试图分裂一个文件沿n个字符长度的分布式系统的记录。我有分解记录并将其Map到记录级别上的专有名称的功能,但需要从文件到在系统上,再分解文件并将其以n个长度大小的片段传递给节点以进行拆分和处理。

vlf7wbxs

vlf7wbxs1#

我已经研究了sparkcontext对象的规范,有一种方法可以从hadoop环境中拉入一个文件并将其作为字节数组Dataframe加载。函数是byterecords。

相关问题