如何在另一个df的列中获得df中一列的值计数？

fiei3ece 于 2021-07-09 发布在 Spark

关注(0)|答案(2)|浏览(342)

假设我有这样一个结果：

consequents
___________
['a']
['b']
['c']

还有一件像这样的东西

items
_____
['a', 'b']
['a']
['b', 'c']

我想得到 consequents 在所有的 items 数组，如：

consequents  |  freq
___________   _______
['a']          2
['b']          2
['c']          1

我该怎么办？
我设法把这些项目排成一行，就像

items
_____
[['a', 'b'], ['a'], ['b', 'c']]

但我不知道接下来该怎么办。

apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/66845987/how-can-i-get-the-count-of-values-in-one-column-in-a-df-in-another-dfs-column

2条答案

按热度按时间

zdwk9cvp1#

可以使用 arrays_overlap 条件，然后进行分组和计数：

import pyspark.sql.functions as F

result = (items.join(consequents, F.arrays_overlap('items', 'consequents'))
               .groupBy('consequents')
               .count()
         )

result.show()
+-----------+-----+
|consequents|count|
+-----------+-----+
|        [c]|    1|
|        [b]|    2|
|        [a]|    2|
+-----------+-----+

对于较旧的spark版本（<2.4），可以使用 array_contains 而不是条件：

import pyspark.sql.functions as F

result = (items.join(consequents, F.expr("array_contains(items, consequents[0])"))
               .groupBy('consequents')
               .count()
         )

赞(0）回复(0）举报 2021-07-09

kyvafyod2#

让我们加载数据：

df = pd.DataFrame({'consequents':[['a'],['b'],['c']]})
dfi = pd.DataFrame({'items':[['a','b'],['a'],['b','c']]})

我们注意到 explode 在这种情况下非常有用（如查看 dfi.explode('items') . 很可能你想要的东西可以通过

dfi.explode('items').value_counts()

这给了你

items
a        2
b        2
c        1
dtype: int64

但万一 dfi 元素比中的多 df 我们可以合并。所以最终的解决办法很简单

(df.explode('consequents')
  .merge(dfi.explode('items').value_counts().to_frame(), left_on = 'consequents', right_on = 'items')  
  .rename(columns = {0:'freq'})  
)

输出

consequents freq
0   a           2
1   b           2
2   c           1

赞(0）回复(0）举报 2021-07-09

我来回答

如何在另一个df的列中获得df中一列的值计数？

2条答案

相关问题

热门标签

最新问答