有没有可能用spark结构化流媒体从Kafka那里读取protobuf消息?
fnatzsnv1#
sparkSession.udf().register("deserialize", getDeserializer(), schema); DataStreamReader dataStreamReader = sparkSession.readStream().format("kafka"); for (Map.Entry<String, String> kafkaPropEntry : kafkaProps.entrySet()) { dataStreamReader.option(kafkaPropEntry.getKey(), kafkaPropEntry.getValue()); } Dataset<Row> kafkaRecords = dataStreamReader.load() .selectExpr("deserialize(value) as event").select("event.*");
final StructType schema = getSchema(); DataStreamReader dataStreamReader = sparkSession.readStream().format("kafka"); for (Map.Entry<String, String> kafkaPropEntry : kafkaProps.entrySet()) { dataStreamReader.option(kafkaPropEntry.getKey(), kafkaPropEntry.getValue()); } Dataset<Row> kafkaRecords = dataStreamReader.load() .map(row -> getOutputRow((byte[]) row.get(VALUE_INDEX)), RowEncoder.apply(schema))
方法1有一个缺陷,因为反序列化方法被多次调用(对于事件中的evert列)https://issues.apache.org/jira/browse/spark-17728. 方法2使用map方法直接将protobufMap到行。
1条答案
按热度按时间fnatzsnv1#
方法1
方法2
方法1有一个缺陷,因为反序列化方法被多次调用(对于事件中的evert列)https://issues.apache.org/jira/browse/spark-17728. 方法2使用map方法直接将protobufMap到行。