apachespark：有没有一种方法可以在spark中读取csv文件并直接将其转换为byte[]而不将文件保存在任何地方

5gfr0r5j 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(201)

我需要从远程位置读取apachespark中的csv文件并将其转换为 byte[] 而不将文件保存到本地磁盘。
我可以将csv文件加载到磁盘上并转换为字节流，但希望避免在磁盘上加载此步骤。
以下是我当前的工作流程：
步骤1：读取csv文件 Dataset<Row> dataset = sparkSession.read().option("mergeSchema", "false").csv("<Dir Path in AWS S3>"); 步骤2：写入本地磁盘 dataset.coalesce(1).write().csv("<localPath>"); 步骤3：转换为 byte[] 从中读取文件后 localPath 第二步。
我想避免第2步和转换的csv文件，而在第1步读取字节数组本身。
在这方面的任何帮助都将不胜感激。

Java apache-spark

来源：https://stackoverflow.com/questions/67068043/apache-spark-is-there-a-way-to-read-a-csv-file-in-spark-and-convert-them-into

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

apachespark：有没有一种方法可以在spark中读取csv文件并直接将其转换为byte[]而不将文件保存在任何地方

暂无答案！

相关问题

热门标签

最新问答