我正在尝试做一个朴素的贝叶斯,在将一些数据加载到Pandas中的 Dataframe 之后,description函数捕获了我想要的数据。我想从表的每一列中获取平均值和标准偏差,但不确定如何做到这一点。我试过这样的事情:
df.describe([mean]) df.describe(['mean']) df.describe().mean
没有人在工作。我能够用summary在R中做类似的事情,但不知道如何用Python做。有人能给我一些建议吗?
but5z9lq1#
请尝试类似的操作:
df.describe(include='all').loc['mean']
uyto3xhc2#
你很接近。您不需要任何include标记。只需正确重写第二种方法:df.describe()['mean']例如:
include
df.describe()['mean']
import pandas as pd s = pd.Series([1, 2, 3, 4, 5]) s.describe()['mean'] # 3.0
如果同时需要mean和std,只需编写df.describe()[['mean', 'std']]即可。例如,
mean
std
df.describe()[['mean', 'std']]
s.describe()[['mean', 'std']] # mean 3.000000 # std 1.581139 # dtype: float64
1cklez4t3#
如果要进一步提取特定列数据,请尝试:
df.describe()['FeatureName']['mean']
将mean替换为要提取的任何其他统计信息
8hhllhi24#
您可以尝试:
import numpy as np import pandas as pd data = pd.read_csv('./FileName.csv') data.describe().loc['mean']
balp4ylt5#
是的,兄弟,在看到这些解决方案后,我遇到了同样的问题。幸运的是,有一个工作了。在这里,我使用了75%的in-describe函数,这是我的代码d=bank.groupby(by=['region','Gender']).get_group(('south Moravia','Female')) d.cashwdn.describe()['75%']
d=bank.groupby(by=['region','Gender']).get_group(('south Moravia','Female')) d.cashwdn.describe()['75%']
5条答案
按热度按时间but5z9lq1#
请尝试类似的操作:
uyto3xhc2#
你很接近。您不需要任何
include
标记。只需正确重写第二种方法:df.describe()['mean']
例如:
如果同时需要
mean
和std
,只需编写df.describe()[['mean', 'std']]
即可。例如,1cklez4t3#
如果要进一步提取特定列数据,请尝试:
将mean替换为要提取的任何其他统计信息
8hhllhi24#
您可以尝试:
balp4ylt5#
是的,兄弟,在看到这些解决方案后,我遇到了同样的问题。幸运的是,有一个工作了。在这里,我使用了75%的in-describe函数,这是我的代码
d=bank.groupby(by=['region','Gender']).get_group(('south Moravia','Female')) d.cashwdn.describe()['75%']