python—计算每个pyspark数据流中的元素数

eimct9ow  于 2021-05-17  发布在  Spark
关注(0)|答案(1)|浏览(588)

我正在寻找一种方法来计算我每次在pyspark中创建的数据流中接收到的元素数(或rdd数)。如果你知道一个能帮助我的方法,我会很高兴的。谢谢。

mzillmmw

mzillmmw1#

我使用下面的代码,给每个数据一个1,然后计算这些数据;就像一个简单的字数统计,但不是字数,我计算每个数据。
我是用下面的代码来实现的,但是如果你们有其他的解决方案,请随意添加;谢谢。

from pyspark.streaming import StreamingContext
from pyspark import SparkContext

# Create a local StreamingContext with two working thread and batch interval of 1 second

sc = SparkContext('local[2]', 'Networkcount')
ssc = StreamingContext(sc, 10)

# Create a DStream that will connect to hostname:port, like localhost:7777

data_received = ssc.socketTextStream("127.0.0.1", 7776)

lines = data_received.map(lambda data: 1)
count = lines.reduce(lambda x, y: x + y)
count.pprint()

相关问题