sparkr read.df忽略分隔符参数

3z6pesqy  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(167)

我正在emr集群(emr-5.3.0版本)上运行sparkr,并尝试从压缩的s3文件导入json数据。
当我读取以换行符作为文件分隔符的json时,read.df工作正常

read.df("s3://.../*.json", "json")

但当数据最初是用

"textinputformat.record.delimiter": '\0'

(因为我只从目录中的每个文件中获取第一条记录)。
如何让read.df将空字符识别为记录分隔符,并解析整个文件,而不仅仅是第一个json记录,然后在嵌入的nul处无声地失败?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题