我需要订阅Kafka主题 latest
胶印,读一些最新的记录,打印出来,然后完成。在spark我怎么做?我想我可以这样做
sqlContext
.read
.format("kafka")
.option("kafka.bootstrap.servers", "192.168.1.1:9092,...")
.option("subscribe", "myTopic")
.option("startingOffsets", "latest")
.filter($"someField" === "someValue")
.take(10)
.show
1条答案
按热度按时间myss37ts1#
您需要提前知道您要从kafka使用哪个分区的哪个偏移量。如果你有这些信息,你可以这样做:
更多关于
startingOffsets
以及endingOffsets
在kafka+spark集成指南中给出