无法在spark中查看来自kafka流的消息

e1xvtsh3 于 2021-06-07 发布在 Kafka

关注(0)|答案(2)|浏览(419)

我刚开始测试 Kafka Stream 至 Spark 使用 Pyspark 图书馆。
我一直在运行整个安装程序 Jupyter Notebook . 我正试图从 Twitter Streaming .
twitter流代码：

import json
import tweepy
from uuid import uuid4
import time
from kafka import KafkaConsumer
from kafka import KafkaProducer

auth = tweepy.OAuthHandler("key", "key")
auth.set_access_token("token", "token")
api = tweepy.API(auth, wait_on_rate_limit=True, retry_count=3, retry_delay=5,
                 retry_errors=set([401, 404, 500, 503]))
class CustomStreamListener(tweepy.StreamListener):
    def __init__(self, api):
        self.api = api
        super(tweepy.StreamListener, self).__init__()

    def on_data(self, tweet):
        print tweet
        # Kafka Producer to send data to twitter topic
        producer.send('twitter', json.dumps(tweet))

    def on_error(self, status_code):
        print status_code
        return True # Don't kill the stream

    def on_timeout(self):
        print 'on_timeout'
        return True # Don't kill the stream
producer = KafkaProducer(bootstrap_servers='localhost:9092')
sapi = tweepy.streaming.Stream(auth, CustomStreamListener(api))
sapi.filter(track=["#party"])

Spark流代码

from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

sc = SparkContext(appName="PythonSparkStreamingKafka_RM_01").getOrCreate()
sc.setLogLevel("WARN")

streaming_context = StreamingContext(sc, 10)
kafkaStream = KafkaUtils.createStream(streaming_context, 'localhost:2181', 'spark-streaming', {'twitter': 1})  
parsed = kafkaStream.map(lambda v: v)
parsed.count().map(lambda x:'Tweets in this batch: %s' % x).pprint()

streaming_context.start()
streaming_context.awaitTermination()

打印输出：

时间：2017-09-30 11:21:00

时间：2017-09-30 11:21:10

时间：2017-09-30 11:21:20

我做错了什么？

apache-kafka apache-spark pyspark spark-streaming twitter-streaming-api

来源：https://stackoverflow.com/questions/46502269/unable-to-see-messages-from-kafka-stream-in-spark

2条答案

按热度按时间

bnl4lu3b1#

您还可以使用一些gui工具，比如kafdrop。它在调试Kafka消息时非常有用。您不仅可以查看消息队列，还可以查看分区及其偏移量等。
这是一个很好的工具，您应该能够轻松地部署它。
以下是链接：https://github.com/homeadvisor/kafdrop

赞(0）回复(0）举报 2021-06-07

bjp0bcyl2#

您可以使用以下两个步骤调试应用程序。
1）使用示例使用者（如kafkawordcount）测试是否有数据（kafka主题是否有消息）
kafka附带了一个命令行客户机，它将从文件或标准输入中获取输入，并将其作为消息发送到kafka集群。默认情况下，每行将作为单独的消息发送。
运行producer，然后在控制台中键入一些消息以发送到服务器。

kafka-console-producer.sh \
    --broker-list <brokeer list> \
    --topic <topic name> \
    --property parse.key=true \
    --property key.separator=, \
    --new-producer

例子：

> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test

如果你看到打印消息，那么你有Kafka的消息，如果没有，那么你的生产者是不工作的
2）打开日志记录

Logger.getLogger("org").setLevel(Level.WARNING);
  Logger.getLogger("akka").setLevel(Level.WARNING);       
  Logger.getLogger("kafka").setLevel(Level.WARNING);

赞(0）回复(0）举报 2021-06-07

我来回答

无法在spark中查看来自kafka流的消息

时间：2017-09-30 11:21:00

时间：2017-09-30 11:21:10

时间：2017-09-30 11:21:20

2条答案

相关问题

热门标签

最新问答