如何在sparkDataframe中执行tukey hsd测试？

mtb9vblg 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(215)

我正在尝试使用pyspark在一个非常大的数据集上执行tukey的测试。现在我知道在python中我们可以使用 pairwise_tukeyhsd 图书馆从 statsmodels.stats.multicomp 模块。这将需要我将sparkDataframe转换为pandasDataframe，这会破坏使用rdd的目的，并且不会在我的大型数据集上工作。
另一种方法是手动对sparkDataframe进行数学上的测试，如这里所示，这非常简单，可以比较 means 与 Q_crit 值，我需要tukey的临界值表。
有没有办法计算tukey表上的临界值？

DataFrame apache-spark pyspark statistics tukey

来源：https://stackoverflow.com/questions/66320568/how-to-perform-tukey-hsd-test-in-spark-dataframe

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何在sparkDataframe中执行tukey hsd测试？

暂无答案！

相关问题

热门标签

最新问答