我正在寻找一个包,或者以前使用redshift作为结构化流Dataframe源的实现。
spark.readStream \
.format("io.github.spark_redshift_community.spark.redshift") \
.option('url', redshift_url) \
.option('forward_spark_s3_credentials', 'true') \
.load()
使用下面的格式,读取时会出现错误。例如:
Data source io.github.spark_redshift_community.spark.redshift does not support streamed reading
如果从spark 3降级并使用: com.databricks.spark.redshift
是否有一个已知的解决方法或方法/模式可以用来实现(在pyspark中)redshift作为readstream数据源
1条答案
按热度按时间eanckbw91#
如错误所述,此库不支持向红移或从红移进行流式读/写。
同样可以从link的项目来源得到证实。该格式不扩展或实现微/连续流读写器。
不会再有了
true streaming
简单的方法。你可以探索以下途径,浏览第三方LIB。搜索
JDBC streaming spark
. 免责声明:我没有使用这些,因此不赞同这些自由行。在自定义检查点机制上创建微批处理策略。
扩展说明:afaik、spark jdbc接口不支持结构化流。