在pyspark中如何计数？

qv7cva1a 于 2021-07-15 发布在 Hadoop

关注(0)|答案(2)|浏览(465)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗？**通过编辑这篇文章更新这个问题，使它只关注一个问题。

4个月前关门了。
改进这个问题
我有一大堆头衔。我要计算整个数据集中的每个标题。例如：

`title`

   A
   b
   A
   c
   c
   c

输出：

title fre
     A   2
     b   1
     c   3

hadoop pyspark count

来源：https://stackoverflow.com/questions/65657330/how-count-in-pyspark

2条答案

按热度按时间

zzwlnbp81#

你可以
groupBy title 然后 count :

import pyspark.sql.functions as f
df.groupBy('title').agg(f.count('*').alias('count')).show()
+-----+-----+
|title|count|
+-----+-----+
|    A|    2|
|    c|    3|
|    b|    1|
+-----+-----+

或者更简洁地说：

df.groupBy('title').count().show()

+-----+-----+
|title|count|
+-----+-----+
|    A|    2|
|    c|    3|
|    b|    1|
+-----+-----+

赞(0）回复(0）举报 2021-07-15

1aaf6o9v2#

嗨，你能做到的

import pandas as pd
 title=["A","b","A","c","c","c"]
 pd.Series(title).value_counts()

赞(0）回复(0）举报 2021-07-15

我来回答

在pyspark中如何计数？

2条答案

相关问题

热门标签

最新问答