我正在emr集群(emr-5.3.0版本)上运行sparkr,并尝试从压缩的s3文件导入json数据。
当我读取以换行符作为文件分隔符的json时,read.df工作正常
read.df("s3://.../*.json", "json")
但当数据最初是用
"textinputformat.record.delimiter": '\0'
(因为我只从目录中的每个文件中获取第一条记录)。
如何让read.df将空字符识别为记录分隔符,并解析整个文件,而不仅仅是第一个json记录,然后在嵌入的nul处无声地失败?
暂无答案!
目前还没有任何答案,快来回答吧!