假设分布为非正态分布且未知,我想计算样本数据的置信区间。基本上,它看起来像是Pareto分布。
但我不确定。
正态分布的答案:
Compute a confidence interval from sample data
Correct way to obtain confidence interval with scipy
假设分布为非正态分布且未知,我想计算样本数据的置信区间。基本上,它看起来像是Pareto分布。
但我不确定。
正态分布的答案:
Compute a confidence interval from sample data
Correct way to obtain confidence interval with scipy
4条答案
按热度按时间4c8rllxm1#
如果您不知道底层的分布,那么我首先想到的是使用自举:https://en.wikipedia.org/wiki/Bootstrapping_(statistics)
在伪代码中,假设
x
是一个包含数据的numpy数组:mean_estimates
现在是分布平均值的10000个估计值的列表。取这10000个值的第2.5和第97.5百分位数,就得到了数据平均值的置信区间:i34xakig2#
您可以使用bootstrap来估计每个数量,这些数量也来自未知分布
模拟帕累托分布中的一些数据:
使用自举法生成样本平均值的置信区间:
画出结果
使用bootstrapping生成分布参数的置信区间:
low_ci[0]
和up_ci[0]
是形状参数的置信区间jhkqcmku3#
从对另一个答案的讨论中,我假设你需要总体平均值的置信区间,是吗?(你必须有某个数量的置信区间,而不是分布本身。)
对于所有具有有限矩的分布,均值的抽样分布渐近地趋向于正态分布,其中均值等于总体均值,方差等于总体方差除以n。因此,如果有大量数据,$\mu \pm \Phi^{-1}(p)\sigma / \sqrt{n}$应该是总体平均值的p置信区间的良好近似,即使分布不是正态分布。
lf5gs5x24#
当前的解决方案不起作用,因为randint似乎已被弃用