如何在spark中计算给定数据集的pearson相关系数

nhhxz33t  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(573)

我有一个sparkDataframe,其中有两个col,col1和col2是双数据类型。我想用scala计算pearson相关系数(在spark会话中)。

jucafojl

jucafojl1#

假设您的Dataframe称为“df”。为了计算两列之间的皮尔逊相关性,您只需执行以下操作:

df.corr("col1", "col2", "pearson")

相关问题