在pandas中将数据组的数据拆分为子组[已关闭]

bjp0bcyl  于 2023-03-28  发布在  其他
关注(0)|答案(1)|浏览(128)

已关闭。此问题需要details or clarity。当前不接受答案。
**想要改进此问题?**添加详细信息并通过editing this post阐明问题。

5天前关闭。
Improve this question
数据集中有关于汽车的品牌和型号的信息。我能够确定每个模型在这个数据集中出现的次数。有必要根据它们重复的频率将模型分组(例如:如果模型重复次数少于x次,则模型名称将被替换为“稀有模型”)。定义阈值。
如何以最简单、最有效的方式做到这一点?[ enter image description here ](https://i.stack.imgur.com/A4j1E.png

zwghvu4y

zwghvu4y1#

您可以使用transform将计数广播到每一行,然后使用pd.cut获取离散类别:

counts = df.groupby(['make', 'model']).transform('size')
xtimes = [0, 10, 30, np.nan]
labels = ['rare model', 'common model', 'very common']

df['category'] = pd.cut(counts, bins=xtimes, labels=labels)

相关问题