我需要从远程位置读取apachespark中的csv文件并将其转换为 byte[]
而不将文件保存到本地磁盘。
我可以将csv文件加载到磁盘上并转换为字节流,但希望避免在磁盘上加载此步骤。
以下是我当前的工作流程:
步骤1:读取csv文件 Dataset<Row> dataset = sparkSession.read().option("mergeSchema", "false").csv("<Dir Path in AWS S3>");
步骤2:写入本地磁盘 dataset.coalesce(1).write().csv("<localPath>");
步骤3:转换为 byte[]
从中读取文件后 localPath
第二步。
我想避免第2步和转换的csv文件,而在第1步读取字节数组本身。
在这方面的任何帮助都将不胜感激。
暂无答案!
目前还没有任何答案,快来回答吧!