R语言二元DV和分类IV的相关性检验

wz1wpwve 于 2023-02-01 发布在其他

关注(0)|答案(2)|浏览(282)

我有两个变量，我想测试它们之间的相关性。因变量是二进制（0/1），自变量是分类变量，有5个可能的类别。我的直觉是使用逻辑回归来做这件事，但我想知道是否有更合适的替代品考虑到下面的一些挑战。
基本上，根据我的特定目标，我在正确解释逻辑回归输出时遇到了一点麻烦。在R中，用于估计逻辑回归的默认参数要求它保持其中一个类别不变（作为截距），并报告其他类别与截距 * 相关 * 的系数。这不是我想要的;相反，我希望能够报告IV中的每个类别对DV的影响，而所有其他类别保持不变。我已经尝试过抑制截距，但在其他地方读到，这在逻辑回归中通常不是一个好主意。因此，我想知道是否有人可以阐明这种策略，或提供替代方案，将帮助我达到我需要的位置。谢谢！

r

来源：https://stackoverflow.com/questions/75264857/correlation-test-for-binary-dv-and-categorical-iv

2条答案

按热度按时间

vuktfyat1#

检验分类变量之间的相关性时，应用卡方检验并检查其皮尔森残差，然后使用corrplot软件包将其绘制成图。

赞(0）回复(0）举报 2023-02-01

k10s72fa2#

解释

我认为您误解了截距对分类变量的作用方式，因此务必记住它是一个线性方程（为什么这是重要的，下面详细说明）。在这种情况下，截距是您的类别的参考水平。因此，如果您有一个包含三个类别的预测值（例如"对照组"、"处理1"和"处理2"），无论是默认的还是指定的第一水平，都将用于截距（在这种情况下，将使用"对照组"，因为它是第一水平）。

单一预测值用例

下面的示例来自我从here借用的hdp数据，该数据应该用于逻辑GLMM，但在这里仍然可以用于常规逻辑回归的简单演示：

#### Load Data ####
hdp <- read.csv("https://stats.idre.ucla.edu/stat/data/hdp.csv")
hdp <- within(hdp, {
  Married <- factor(Married, levels = 0:1, labels = c("no", "yes"))
  DID <- factor(DID)
  HID <- factor(HID)
  CancerStage <- factor(CancerStage)
})

我们将缓解作为二元结果（癌症是否进入缓解编码为0/1），性别作为分类变量（女性作为参照组）进行数据拟合，我们还将添加一个连续变量红细胞计数（RBC），然后我们总结模型：

#### Fit First Model ####
fit <- glm(remission 
           ~ Sex
           + RBC,
           family = binomial,
           data = hdp)
summary(fit)

如果你运行最后一个代码summary(fit)，你会得到很多信息，所以我只包括下面的系数：

Coefficients:
            Estimate Std. Error z value Pr(>|z|)   
(Intercept) -1.26965    0.41124  -3.087  0.00202 **
Sexmale      0.05474    0.04835   1.132  0.25753   
RBC          0.07602    0.08210   0.926  0.35447

线性方程组与预测函数

该线性方程表示为：

- 缓解= -1.26965+（0.05474 * 性别为男性）+（0.07602 * 红细胞）**

因此，如果我们有一个女性，方程去掉了中间项（因为女性是虚拟的，编码为0，所以.05 * 0 = 0），简化为：

- 缓解= -1.26965+（0.07602 * 红细胞）**

你可以在R中使用predict函数来测试，这里我创建了一个新的数据，它包含一个新的男性和一个新的红细胞计数5。

new.data <- data.frame(Sex = "male",
                       RBC = 5)

然后使用此数据的线性方程从模型中获得预测值：

predict(fit.add, 
        newdata = new.data)

输出如下所示：
这是正确的，因为当性别为男性（性别= 1）且RBC为5时，线性方程将等于：

- 缓解= -1.26965+（0.05474 * 1）+（0.07602 * 5）= -0.8347961**

如果她们是女性，这个等式将变成：

- 缓解= -1.26965+（0.05474 * 0）+（0.07602 * 5）= -0.88955**

资源

顺便说一下，一本关于在R中学习逻辑回归的好书是约瑟夫·希尔贝的《逻辑回归实用指南》，在第28页有一个具体的章节详细介绍了如何解释分类预测因子。

赞(0）回复(0）举报 2023-02-01

我来回答

R语言二元DV和分类IV的相关性检验

2条答案

解释

单一预测值用例

线性方程组与预测函数

资源

相关问题

热门标签

最新问答

R语言 二元DV和分类IV的相关性检验

2条答案

解释

单一预测值用例

线性方程组与预测函数

资源

相关问题

热门标签

最新问答

R语言二元DV和分类IV的相关性检验