python 我如何获得所有数值列的“.describe()”统计信息,无论是否嵌套?

2ledvvac  于 2023-05-16  发布在  Python
关注(0)|答案(1)|浏览(126)
  • 获取数据框(或列表或数组)中任何列的简单描述性统计的最佳方法是什么,无论是否嵌套,一种高级的df.describe(),也包括具有数值的嵌套结构。

在我的例子中,我有一个包含许多列的 Dataframe 。有些列的每一行都有一个数字列表(在我的例子中是一个时间序列结构),这是一个嵌套结构。
这样的嵌套结构意味着:

  • 数组列表,
  • 阵列的阵列,
  • 一系列列表,
  • 在某些列中嵌套数值列表的数据框(我的例子)

如何从嵌套结构的任何一层得到简单的描述性统计量?
要求

df.describe()

将只给予数值列的统计信息,而不是包含数值列表的列的统计信息。我无法通过申请获得统计数据

from scipy import stats
stats.describe(arr)

或者,因为它是如何获得NumPy数组的描述性统计数据中的解决方案?对于非嵌套数组。

uinbv5nw

uinbv5nw1#

我的第一个方法是先得到每个数字列表的统计数据,然后再得到它的统计数据,例如。平均值的平均值或方差的平均值也会给予我一些信息。在这里的第一种方法中,我首先将具有数值嵌套列表的特定列转换为一系列嵌套列表。嵌套数组或列表可能需要进行小的调整,而不是测试。
NESTEDSTRUCTURE = df['nestedColumn']

[stats.describe([a[x] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]]) for x in range(6)]

提供嵌套结构列的统计信息的统计信息。如果要求列的所有均值的均值,可以使用

stats.describe([a[2] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]])

因为位置2代表“平均值”
DescribeResult(nobs=,minmax=(,),mean=,variance=,skewness=,kurtosis=)
我希望有一个更好的描述性统计方法,也应该自动理解嵌套结构的数值,这只是一个解决方案。

相关问题