我正在看wine review data from kaggle,并试图练习使用pandas。我遇到了一点问题。我想做的是将葡萄酒按国家和品种分组,然后确定葡萄酒评论家对来自特定国家的特定葡萄酒品种的描述的平均长度。
为此我尝试average_desc = reviews.groupby(['country','variety']).description.apply(lambda x: len(x)).mean()
但所有这一切给我的是一些平均值。我不太知道什么问题是,或者我如何可以提供更多的信息,第一次张贴在这里,让我知道如何澄清。我想,一旦reviews.groupby(['country','variety']).description
我基本上是在查看包含按品种排序的葡萄酒描述的列,只需要将列中字符串的长度转换为平均值。average_desc = reviews.groupby(['country','variety']).description.apply(lambda x: len(x))
返回在以下国家中可以找到的不同葡萄酒品种的数量
country variety
Argentina Barbera 1
Bonarda 105
Bordeaux-style Red Blend 89
Bordeaux-style White Blend 1
Cabernet Blend 8
...
Uruguay Tannat-Cabernet Franc 2
Tannat-Merlot 6
Tannat-Syrah 1
Tempranillo-Tannat 1
White Blend 1
Name: description, Length: 1612, dtype: int64
那么,是否存在索引到 Dataframe 中 * 不够远 * 的问题?提前感谢您的帮助,如果我需要写更多来澄清这种情况,请让我知道。
1条答案
按热度按时间elcex8rz1#
IIUC,我想你想要这样的东西:
输出: