apachespark:有没有一种方法可以在spark中读取csv文件并直接将其转换为byte[]而不将文件保存在任何地方

5gfr0r5j  于 2021-07-14  发布在  Spark
关注(0)|答案(0)|浏览(201)

我需要从远程位置读取apachespark中的csv文件并将其转换为 byte[] 而不将文件保存到本地磁盘。
我可以将csv文件加载到磁盘上并转换为字节流,但希望避免在磁盘上加载此步骤。
以下是我当前的工作流程:
步骤1:读取csv文件 Dataset<Row> dataset = sparkSession.read().option("mergeSchema", "false").csv("<Dir Path in AWS S3>"); 步骤2:写入本地磁盘 dataset.coalesce(1).write().csv("<localPath>"); 步骤3:转换为 byte[] 从中读取文件后 localPath 第二步。
我想避免第2步和转换的csv文件,而在第1步读取字节数组本身。
在这方面的任何帮助都将不胜感激。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题