sparkr read.df忽略分隔符参数

3z6pesqy 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(167)

我正在emr集群（emr-5.3.0版本）上运行sparkr，并尝试从压缩的s3文件导入json数据。
当我读取以换行符作为文件分隔符的json时，read.df工作正常

read.df("s3://.../*.json", "json")

但当数据最初是用

"textinputformat.record.delimiter": '\0'

（因为我只从目录中的每个文件中获取第一条记录）。
如何让read.df将空字符识别为记录分隔符，并解析整个文件，而不仅仅是第一个json记录，然后在嵌入的nul处无声地失败？

目前还没有任何答案，快来回答吧！

相关问题