我有一个问题,我试图分裂一个文件沿n个字符长度的分布式系统的记录。我有分解记录并将其Map到记录级别上的专有名称的功能,但需要从文件到在系统上,再分解文件并将其以n个长度大小的片段传递给节点以进行拆分和处理。
vlf7wbxs1#
我已经研究了sparkcontext对象的规范,有一种方法可以从hadoop环境中拉入一个文件并将其作为字节数组Dataframe加载。函数是byterecords。
1条答案
按热度按时间vlf7wbxs1#
我已经研究了sparkcontext对象的规范,有一种方法可以从hadoop环境中拉入一个文件并将其作为字节数组Dataframe加载。函数是byterecords。