我正在尝试使用pyspark在一个非常大的数据集上执行tukey的测试。现在我知道在python中我们可以使用 pairwise_tukeyhsd
图书馆从 statsmodels.stats.multicomp
模块。这将需要我将sparkDataframe转换为pandasDataframe,这会破坏使用rdd的目的,并且不会在我的大型数据集上工作。
另一种方法是手动对sparkDataframe进行数学上的测试,如这里所示,这非常简单,可以比较 means
与 Q_crit
值,我需要tukey的临界值表。
有没有办法计算tukey表上的临界值?
暂无答案!
目前还没有任何答案,快来回答吧!