googlecloudpubsub：如何只读最新记录

6rqinv9w 于 2021-06-04 发布在 Kafka

关注(0)|答案(2)|浏览(415)

在Kafka有两种设置 earliest 以及 latest 从主题的最早偏移量（0）或最新事件（对实时有用）读取
我现在将pubsub与dataflow和beam一起使用，但默认情况下，每次启动作业时都会读取最早的数据。如何配置它以便它只读取最新的记录？
作为 latest 是Kafka的默认值，有人能解释为什么这在pub/sub中不容易实现吗？

apache-kafka google-cloud-platform google-cloud-pubsub dataflow

来源：https://stackoverflow.com/questions/57805297/google-cloud-pubsub-how-to-read-only-latest-records

2条答案

按热度按时间

ddhy6vgd1#

最新的定义是什么？实际上，对于beam，pubsubio reader是一个无限读取。就是说，没有尽头，总有一个更近的最近之后！
所以，这是哲学的部分。事实上，你必须定义，最新的比较什么。使用beam，可以使用窗口。然后，你可以说，在5分钟的时间内，我想处理最后一个。这里最新的定义是正确的，您可以实现它。

赞(0）回复(0）举报 2021-06-05

pdsfdshx2#

您可以尝试使用seek选项：https://cloud.google.com/pubsub/docs/reference/rest/v1/projects.subscriptions/seek
它仍然有点初级，因为您需要确定时间戳或快照。
我猜apachebeam选项将使用withtimestampattribute
https://beam.apache.org/releases/javadoc/2.15.0/org/apache/beam/sdk/io/gcp/pubsub/pubsubio.read.html#withtimestampattribute-java.lang.string文件-

赞(0）回复(0）举报 2021-06-05

我来回答

googlecloudpubsub：如何只读最新记录

2条答案

相关问题

热门标签

最新问答