- 获取数据框(或列表或数组)中任何列的简单描述性统计的最佳方法是什么,无论是否嵌套,一种高级的df.describe(),也包括具有数值的嵌套结构。
在我的例子中,我有一个包含许多列的 Dataframe 。有些列的每一行都有一个数字列表(在我的例子中是一个时间序列结构),这是一个嵌套结构。
这样的嵌套结构意味着:
- 数组列表,
- 阵列的阵列,
- 一系列列表,
- 在某些列中嵌套数值列表的数据框(我的例子)
如何从嵌套结构的任何一层得到简单的描述性统计量?
要求
df.describe()
将只给予数值列的统计信息,而不是包含数值列表的列的统计信息。我无法通过申请获得统计数据
from scipy import stats
stats.describe(arr)
或者,因为它是如何获得NumPy数组的描述性统计数据中的解决方案?对于非嵌套数组。
1条答案
按热度按时间uinbv5nw1#
我的第一个方法是先得到每个数字列表的统计数据,然后再得到它的统计数据,例如。平均值的平均值或方差的平均值也会给予我一些信息。在这里的第一种方法中,我首先将具有数值嵌套列表的特定列转换为一系列嵌套列表。嵌套数组或列表可能需要进行小的调整,而不是测试。
NESTEDSTRUCTURE = df['nestedColumn']
提供嵌套结构列的统计信息的统计信息。如果要求列的所有均值的均值,可以使用
因为位置2代表“平均值”
DescribeResult(nobs=,minmax=(,),mean=,variance=,skewness=,kurtosis=)
我希望有一个更好的描述性统计方法,也应该自动理解嵌套结构的数值,这只是一个解决方案。