在结构化流api(pyspark)中使用redshift作为readstream的jdbc源

ac1kyiln  于 2021-05-17  发布在  Spark
关注(0)|答案(1)|浏览(491)

我正在寻找一个包,或者以前使用redshift作为结构化流Dataframe源的实现。

spark.readStream \
    .format("io.github.spark_redshift_community.spark.redshift") \
    .option('url', redshift_url) \
    .option('forward_spark_s3_credentials', 'true') \
    .load()

使用下面的格式,读取时会出现错误。例如:

Data source io.github.spark_redshift_community.spark.redshift does not support streamed reading

如果从spark 3降级并使用: com.databricks.spark.redshift 是否有一个已知的解决方法或方法/模式可以用来实现(在pyspark中)redshift作为readstream数据源

eanckbw9

eanckbw91#

如错误所述,此库不支持向红移或从红移进行流式读/写。
同样可以从link的项目来源得到证实。该格式不扩展或实现微/连续流读写器。
不会再有了 true streaming 简单的方法。你可以探索以下途径,
浏览第三方LIB。搜索 JDBC streaming spark . 免责声明:我没有使用这些,因此不赞同这些自由行。
在自定义检查点机制上创建微批处理策略。
扩展说明:afaik、spark jdbc接口不支持结构化流。

相关问题