在aws glue中为流式etl作业设置failondataloss

nxagd54h  于 2021-06-04  发布在  Kafka
关注(0)|答案(0)|浏览(281)

我们正尝试按照以下指南在aws glue中为我们公司的kafka源设置流式etl作业:
https://docs.aws.amazon.com/glue/latest/dg/add-job-streaming.html
我们使用的是默认情况下glue提供的脚本。
该程序是成功的,我们能够运行流作业和存储在s3Kafka消息。
但是,作业会定期失败,并出现以下错误(提取):
无法获取偏移量3652056(groupid:spark kafka source----executor,topicpartition:kafka\u topic-0)。一些数据可能已经丢失,因为它们在Kafka不再可用;要么是数据被Kafka过时了,要么是主题在处理完主题中的所有数据之前被删除了。如果您不希望流式查询在这种情况下失败,请将源选项“failondataloss”设置为“false”
所以我想问,我们如何在aws glue中将source选项“failondataloss”设置为“false”?
或者,我们如何更改胶印胶的使用,使作业从可用的最早胶印恢复加工?
脚本已经配置了“startingoffset”:“earliest”,但仍在尝试从存储在s3中的最新偏移恢复。
事先非常感谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题