关闭。这个问题需要更加突出重点。它目前不接受答案。**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。
4个月前关门了。改进这个问题我有一大堆头衔。我要计算整个数据集中的每个标题。例如:
`title` A b A c c c
输出:
title fre A 2 b 1 c 3
zzwlnbp81#
你可以groupBy title 然后 count :
title
count
import pyspark.sql.functions as f df.groupBy('title').agg(f.count('*').alias('count')).show() +-----+-----+ |title|count| +-----+-----+ | A| 2| | c| 3| | b| 1| +-----+-----+
或者更简洁地说:
df.groupBy('title').count().show() +-----+-----+ |title|count| +-----+-----+ | A| 2| | c| 3| | b| 1| +-----+-----+
1aaf6o9v2#
嗨,你能做到的
import pandas as pd title=["A","b","A","c","c","c"] pd.Series(title).value_counts()
2条答案
按热度按时间zzwlnbp81#
你可以
groupBy
title
然后count
:或者更简洁地说:
1aaf6o9v2#
嗨,你能做到的