spark没有从二进制文件中读取所有记录

brqmpdu1 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(801)

我正在尝试从s3读取avro文件，如spark文档所示，我能够很好地读取它。我的文件如下，这些文件由5000条记录组成。

s3a://bucket/part-0.avro
s3a://bucket/part-1.avro
s3a://bucket/part-2.avro

val byteRDD: RDD[Array[Byte]] = sc.binaryFiles(s"$s3URL/*.avro").map{ case(file, pds) => {
  val dis = pds.open()
  val len = dis.available()
  val buf = Array.ofDim[Byte](len)
  pds.open().readFully(buf)
  buf
}}

import org.apache.avro.io.DecoderFactory
val deserialisedAvroRDD = byteRDD.map(record => {

  import org.apache.avro.Schema
  val schema = new Schema.Parser().parse(schemaJson)
  val datumReader = new GenericDatumReader[GenericRecord](schema)

  val decoder = DecoderFactory.get.binaryDecoder(record, null)
  var datum: GenericRecord = null
  while (!decoder.isEnd()) {
    datum = datumReader.read(datum, decoder)
  }
  datum
}
)

deserialisedAvroRDD.count() ---> 3

我正在反序列化binaryavro消息以生成genericrecords，我希望反序列化的rdd有15k条记录，因为每个.avro文件有5k条记录，但是反序列化后我只得到3条记录。有人能帮我找出代码的问题吗？如何一次序列化一条记录。

avro apache-spark spark-avro deserialization binaryfiles

来源：https://stackoverflow.com/questions/61763282/spark-not-reading-all-the-records-from-binary-file

1条答案

按热度按时间

sirbozc51#

这应该管用

val recRDD: RDD[GenericRecord] = sc.binaryFiles(s"$s3URL/*.avro").flatMap {
  case (file, pds) => {
    val schema =  new Schema.Parser().parse(schemaJson)
    val datumReader = new GenericDatumReader[GenericRecord](schema)

    val decoder = DecoderFactory.get.binaryDecoder(pds.toArray(), null)
    var datum: GenericRecord = null
    val out = ArrayBuffer[GenericRecord]()
    while (!decoder.isEnd()) {
      out += datumReader.read(datum, decoder)
    }
    out
  }
}

赞(0）回复(0）举报 2021-05-27

我来回答

spark没有从二进制文件中读取所有记录

1条答案

相关问题

热门标签

最新问答