spark流：从kafka读取csv字符串，写入parquet

ma8fv8wu 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(375)

在线上有很多从kafka读取json的例子（写入parquet），但我不知道如何将模式应用于kafka的csv字符串。
流数据：

customer_1945,cusaccid_995,27999941    
customer_1459,cusaccid_1102,27999942

架构：

schema = StructType() \
.add("customer_id",StringType()) \
.add("customer_acct_id",StringType()) \
.add("serv_acct_id",StringType())

读取流：

df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "xx.xx.xx.xx:9092") \
  .option("subscribe", "test") \
  .load()

我用这个来表示json：

interval=df \
  .select(from_json(col("value").cast("string"), schema).alias("json")) \
  .select("json.*")

在使用指定的模式将其写入parquet之前：

query=interval     \
  .writeStream  \
  .format("parquet") \
  .option("checkpointLocation", "/user/whatever/checkpoint24") \
  .start("/user/ehatever/interval24")

因为我不能将from_json（）用于csv-我不知道如何将模式应用于Dataframe，以便使用类似的writestream（）命令。

python apache-kafka apache-spark spark-structured-streaming csv

来源：https://stackoverflow.com/questions/47903276/spark-streaming-read-csv-string-from-kafka-write-to-parquet

1条答案

按热度按时间

gblwokeq1#

我就是这样做的。不使用from\u json，提取csv字符串：

interval=df.select(col("value").cast("string")) .alias("csv").select("csv.*")

然后把它分成几列。可以使用上面相同的语句将其写入Parquet文件

interval2=interval \
      .selectExpr("split(value,',')[0] as customer_id" \
                 ,"split(value,',')[1] as customer_acct_id" \
                 ,"split(value,',')[2] as serv_acct_id" \
                 ,"split(value,',')[3] as installed_service_id" \
                 ,"split(value,',')[4] as meter_id" \
                 ,"split(value,',')[5] as channel_number" \
                 ... etc
                 )

赞(0）回复(0）举报 2021-06-07

我来回答

spark流：从kafka读取csv字符串，写入parquet

1条答案

相关问题

热门标签

最新问答