如何在spark streaming中解析动态json格式的Kafka消息

ecbunoof 于 2023-01-13 发布在 Apache

关注(0)|答案(1)|浏览(152)

我正在实现一个Spark Structured Streaming作业，在该作业中，我正在使用来自Kafka的JSON格式的消息。
由于json数据是动态的，所以我没有模式信息可以在from_json函数中用于将json数据加载到spark Dataframe
下面的代码是我用来阅读Kafka主题的数据

df = spark_session.readStream.format("kafka") \
      .option("kafka.bootstrap.servers", "...") \
      .option("subscribe", "..") \
      .option("startingTimestamp", "...").load()

如何使用下面的from_json函数，或者是否有任何其他函数可用于将json数据加载到没有预定义模式的 Dataframe 中

df = df.select(from_json(col("value").cast("string")).alias("parsed_value"))

apache-spark

来源：https://stackoverflow.com/questions/75083094/how-to-parse-dynamic-json-formatted-kafka-message-in-spark-streaming

1条答案

按热度按时间

2g32fytz1#

可以使用get_json_object(column, '<json path>')解析字符串类型的json列

赞(0）回复(0）举报 2023-01-13

我来回答

如何在spark streaming中解析动态json格式的Kafka消息

1条答案

相关问题

热门标签

最新问答