R语言 二元DV和分类IV的相关性检验

wz1wpwve  于 2023-02-01  发布在  其他
关注(0)|答案(2)|浏览(282)

我有两个变量,我想测试它们之间的相关性。因变量是二进制(0/1),自变量是分类变量,有5个可能的类别。我的直觉是使用逻辑回归来做这件事,但我想知道是否有更合适的替代品考虑到下面的一些挑战。
基本上,根据我的特定目标,我在正确解释逻辑回归输出时遇到了一点麻烦。在R中,用于估计逻辑回归的默认参数要求它保持其中一个类别不变(作为截距),并报告其他类别与截距 * 相关 * 的系数。这不是我想要的;相反,我希望能够报告IV中的每个类别对DV的影响,而所有其他类别保持不变。我已经尝试过抑制截距,但在其他地方读到,这在逻辑回归中通常不是一个好主意。因此,我想知道是否有人可以阐明这种策略,或提供替代方案,将帮助我达到我需要的位置。谢谢!

vuktfyat

vuktfyat1#

检验分类变量之间的相关性时,应用卡方检验并检查其皮尔森残差,然后使用corrplot软件包将其绘制成图。

k10s72fa

k10s72fa2#

解释

我认为您误解了截距对分类变量的作用方式,因此务必记住它是一个线性方程(为什么这是重要的,下面详细说明)。在这种情况下,截距是您的类别的参考水平。因此,如果您有一个包含三个类别的预测值(例如"对照组"、"处理1"和"处理2"),无论是默认的还是指定的第一水平,都将用于截距(在这种情况下,将使用"对照组",因为它是第一水平)。

单一预测值用例

下面的示例来自我从here借用的hdp数据,该数据应该用于逻辑GLMM,但在这里仍然可以用于常规逻辑回归的简单演示:

#### Load Data ####
hdp <- read.csv("https://stats.idre.ucla.edu/stat/data/hdp.csv")
hdp <- within(hdp, {
  Married <- factor(Married, levels = 0:1, labels = c("no", "yes"))
  DID <- factor(DID)
  HID <- factor(HID)
  CancerStage <- factor(CancerStage)
})

我们将缓解作为二元结果(癌症是否进入缓解编码为0/1),性别作为分类变量(女性作为参照组)进行数据拟合,我们还将添加一个连续变量红细胞计数(RBC),然后我们总结模型:

#### Fit First Model ####
fit <- glm(remission 
           ~ Sex
           + RBC,
           family = binomial,
           data = hdp)
summary(fit)

如果你运行最后一个代码summary(fit),你会得到很多信息,所以我只包括下面的系数:

Coefficients:
            Estimate Std. Error z value Pr(>|z|)   
(Intercept) -1.26965    0.41124  -3.087  0.00202 **
Sexmale      0.05474    0.04835   1.132  0.25753   
RBC          0.07602    0.08210   0.926  0.35447
线性方程组与预测函数

该线性方程表示为:

    • 缓解= -1.26965+(0.05474 * 性别为男性)+(0.07602 * 红细胞)**

因此,如果我们有一个女性,方程去掉了中间项(因为女性是虚拟的,编码为0,所以.05 * 0 = 0),简化为:

    • 缓解= -1.26965+(0.07602 * 红细胞)**

你可以在R中使用predict函数来测试,这里我创建了一个新的数据,它包含一个新的男性和一个新的红细胞计数5。

new.data <- data.frame(Sex = "male",
                       RBC = 5)

然后使用此数据的线性方程从模型中获得预测值:

predict(fit.add, 
        newdata = new.data)

输出如下所示:
这是正确的,因为当性别为男性(性别= 1)且RBC为5时,线性方程将等于:

    • 缓解= -1.26965+(0.05474 * 1)+(0.07602 * 5)= -0.8347961**

如果她们是女性,这个等式将变成:

    • 缓解= -1.26965+(0.05474 * 0)+(0.07602 * 5)= -0.88955**
资源

顺便说一下,一本关于在R中学习逻辑回归的好书是约瑟夫·希尔贝的《逻辑回归实用指南》,在第28页有一个具体的章节详细介绍了如何解释分类预测因子。

相关问题