我能在没有Spark流的情况下阅读Kafka的留言吗?我的意思是只有与Spark核心库的批处理的目的。如果是的话,请举例说明如何做。我使用的是HDP2.4,Kafka0.9和spark 1.6。
fivyi3re1#
有一个类叫做 KafkaUtils 在spark流Kafkaapi。https://github.com/apache/spark/blob/master/external/kafka-0-8/src/main/scala/org/apache/spark/streaming/kafka/kafkautils.scala从这个类你可以使用一个方法 createRDD ,这基本上是期望偏移量,它只对非流应用程序有用。依赖项jar:
KafkaUtils
createRDD
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka_2.10</artifactId> <version>1.6.0</version> </dependency>
另外,请检查kafka connect,例如,您希望读取kafka主题数据并将数据填充到hdfs中,使用kafka connect非常简单。http://docs.confluent.io/3.0.0/connect/http://www.confluent.io/product/connectors/
1条答案
按热度按时间fivyi3re1#
有一个类叫做
KafkaUtils
在spark流Kafkaapi。https://github.com/apache/spark/blob/master/external/kafka-0-8/src/main/scala/org/apache/spark/streaming/kafka/kafkautils.scala
从这个类你可以使用一个方法
createRDD
,这基本上是期望偏移量,它只对非流应用程序有用。依赖项jar:
另外,请检查kafka connect,例如,您希望读取kafka主题数据并将数据填充到hdfs中,使用kafka connect非常简单。
http://docs.confluent.io/3.0.0/connect/http://www.confluent.io/product/connectors/