numpy 为什么决定系数R²的实现会产生不同的结果？

6tqwzwtp 于 2023-10-19 发布在其他

关注(0)|答案(1)|浏览(116)

当试图实现一个python函数来计算决定系数R²时，我注意到我得到了非常不同的结果，这取决于我使用的计算序列。
wikipedia page on R²给出了一个似乎非常清楚的解释，关于如何计算R²。我对维基页面上所说的话的麻木解释如下：

def calcR2_wikipedia(y, yhat):
    # Mean value of the observed data y.
    y_mean = np.mean(y)
    # Total sum of squares.
    SS_tot = np.sum((y - y_mean)**2)
    # Residual sum of squares.
    SS_res = np.sum((y - yhat)**2)
    # Coefficient of determination.
    R2 = 1.0 - (SS_res / SS_tot)
    return R2

当我使用目标向量 y 和模型估计向量 yhat 尝试此方法时，此函数产生的R²值为-0.00301。
然而，this stackoverflow post discussing how to calculate R²给出了以下定义：

def calcR2_stackOverflow(y, yhat):
    SST = np.sum((y - np.mean(y))**2)
    SSReg = np.sum((yhat - np.mean(y))**2)
    R2 = SSReg/SST
    return R2

使用与之前相同的 y 和 yhat 向量，我现在得到的R²为0.319。
此外，在同一个stackoverflow帖子中，很多人似乎赞成用scipy模块计算R²：

import scipy
slope, intercept, r_value, p_value, std_err = scipy.stats.linregress(yhat, y)
R2 = r_value**2

在我的情况下，产生0.261。
所以我的问题是为什么从表面上被广泛接受的来源产生的R²值彼此之间根本不同？那么，计算两个向量之间的R²的正确方法是什么？

numpy

来源：https://stackoverflow.com/questions/64192772/why-do-coefficient-of-determination-r%c2%b2-implementations-produce-different-resul

1条答案

按热度按时间

cyvaqqii1#

定义

这是一种符号滥用，往往会导致误解。您正在比较两个不同的系数：

Coefficient of determination（通常记为R^2），它可以用于任何OLS回归，而不仅仅是线性回归（OLS对于拟合参数是线性的，而不是函数本身）;
Pearson Correlation Coefficient（通常表示为r或r^2平方），仅用于线性回归。

如果你仔细阅读维基百科页面上的决定系数的介绍，你会看到它在那里讨论，它开始如下：
R2有几种定义，只是有时候是等价的。

MCVE

您可以确认这些评分的经典实现返回预期结果：

import numpy as np
import scipy
from sklearn import metrics

np.random.seed(12345)
x = np.linspace(-3, 3, 1001)
yh = np.polynomial.polynomial.polyval(x, [1, 2])
e = np.random.randn(x.size)
yn = yh + e

然后你的函数calcR2_wikipedia（0.9265536406736125）返回决定系数，它可以被确认为与sklearn.metrics.r2_score相同：

metrics.r2_score(yn, yh) # 0.9265536406736125

另一方面，scipy.stats.linregress返回相关系数（仅对线性回归有效）：

slope, intercept, r_value, p_value, std_err = scipy.stats.linregress(yh, yn)
r_value # 0.9625821384210018

你可以交叉确认它的定义：

C = np.cov(yh, yn)
C[1,0]/np.sqrt(C[0,0]*C[1,1]) # 0.9625821384210017

赞(0）回复(0）举报 2023-10-19

我来回答

numpy 为什么决定系数R²的实现会产生不同的结果？

1条答案

定义

MCVE

相关问题

热门标签

最新问答