在结构化流api(pyspark)中使用redshift作为readstream的jdbc源

ac1kyiln 于 2021-05-17 发布在 Spark

关注(0)|答案(1)|浏览(492)

我正在寻找一个包，或者以前使用redshift作为结构化流Dataframe源的实现。

spark.readStream \
    .format("io.github.spark_redshift_community.spark.redshift") \
    .option('url', redshift_url) \
    .option('forward_spark_s3_credentials', 'true') \
    .load()

使用下面的格式，读取时会出现错误。例如：

Data source io.github.spark_redshift_community.spark.redshift does not support streamed reading

如果从spark 3降级并使用： com.databricks.spark.redshift 是否有一个已知的解决方法或方法/模式可以用来实现（在pyspark中）redshift作为readstream数据源

apache-spark spark-structured-streaming amazon-redshift

来源：https://stackoverflow.com/questions/64881139/using-redshift-as-a-jdbc-source-for-readstream-in-the-structured-streaming-api

1条答案

按热度按时间

eanckbw91#

如错误所述，此库不支持向红移或从红移进行流式读/写。
同样可以从link的项目来源得到证实。该格式不扩展或实现微/连续流读写器。
不会再有了 true streaming 简单的方法。你可以探索以下途径，
浏览第三方LIB。搜索 JDBC streaming spark . 免责声明：我没有使用这些，因此不赞同这些自由行。
在自定义检查点机制上创建微批处理策略。
扩展说明：afaik、spark jdbc接口不支持结构化流。

赞(0）回复(0）举报 2021-05-18

我来回答

在结构化流api(pyspark)中使用redshift作为readstream的jdbc源

1条答案

相关问题

热门标签

最新问答