R语言在二项式(glm)模型中使用比例作为偏移

我试图测试一种处理对候鸟种群中幼鸟比例的影响。每天对这些鸟进行计数，并确定它们是幼鸟还是成年鸟，但处理只是每两天进行一次。不处理的日子被用作对照。问题是，种群中幼鸟的比例预计不仅会受到处理的影响，而且还受到迁徙物候学的影响。例如，在给定的一天，可能有更多的幼鱼迁徙到研究区域，因此，这一点，而不仅仅是处理，影响了幼鱼在种群中的比例。为了解决这个问题，我还检查了附近一个没有受到处理影响的地点每天的青少年比例（即对照地点）。因此，我有两种类型的对照。为了分析数据，我想到了使用二项式GLMM，以青少年的比例作为感兴趣的变量，作为范畴的处理（有或没有处理）解释变量和作为随机截距因子的日期，我使用权重来说明每天不同的鸡只数量，但我不确定如何输入来自对照中心的数据。从我所读到的，它应该用作偏移，但我不知 prop 体是怎么回事。
链接功能是否会受到它（ctrl. site的青少年属性）是一个比例的事实的影响？在交互中使用ctrl. site的青少年属性比使用offset（即~ Treatment* www.example.com）更好吗Juv.prop.cntrl.site？
这是我目前拥有的模型，但我不确定它是否有意义，特别是如果偏移设置正确：

glm(Juv.prop.exp.site ~ Treatment + Day, offset = Juv.prop.cntrl.site, weights = Tot.birds.exp.site, data = df, family = Binomial)

其中Juv.prop.exp.site是青少年的数量除以总在这个网站（青少年+成年人）看到这里的数据：DATA（一天从11开始，因为在前10天内未观察到该物种的鸟类）
提前谢谢你，新年快乐！

通常情况下，我会建议将有关统计分析的问题迁移到CrossValidated，在那里您将获得纯统计问题的更好答案。然而，在您的情况下，在分析之前将数据重塑为整齐的格式会有很大帮助，这更像是一个编程问题。
基本上，每天、地点、处理、青少年数量和成年数量各需要一列，我假设在您的数据中，“V”是处理，“X”是对照。

library(tidyverse)

df <- data %>%
  select(1, 2, 4, 5, 8, 9) %>%
  rename_all(~gsub("\\.site", "_site", .x)) %>%
  pivot_longer(1:4, names_sep = "\\.", names_to = c(".value", "Site")) %>%
  mutate(Treatment = ifelse(Site == "Exp_site", Treatment, "X")) %>%
  mutate(Treatment = ifelse(Treatment == "V", "Treatment", "Control")) %>%
  mutate(Site = ifelse(Site == "Exp_site", "Experimental", "Control")) %>%
  rename(Juveniles = Juv, Adults = Ad) %>%
  select(2, 1, 3:5)

这使得你的数据看起来像这样，在我看来，这更容易分析（和推理）：

df
#> # A tibble: 100 x 5
#>      Day Treatment Site         Juveniles Adults
#>    <int> <chr>     <chr>            <int>  <int>
#>  1    11 Control   Experimental         1      0
#>  2    11 Control   Control              0      0
#>  3    12 Treatment Experimental         2      1
#>  4    12 Control   Control              1      0
#>  5    13 Control   Experimental         2      0
#>  6    13 Control   Control              1      1
#>  7    14 Treatment Experimental         6      3
#>  8    14 Control   Control              4      2
#>  9    15 Control   Experimental         6      4
#> 10    15 Control   Control              1      2
#> # ... with 90 more rows
#> # i Use `print(n = ...)` to see more rows

然后，您可以像这样执行二项式glm，其中Treatment和Site作为自变量。

model <- glm(cbind(Juveniles, Adults) ~ Treatment + Site, 
             data = df, family = binomial)

summary(model)
#> Call:
#> glm(formula = cbind(Juveniles, Adults) ~ Treatment + Site, family = binomial, 
#>     data = df)
#> 
#> Deviance Residuals: 
#>     Min       1Q   Median       3Q      Max  
#> -3.4652  -0.6971   0.0000   0.7895   2.9541  
#> 
#> Coefficients:
#>                    Estimate Std. Error z value Pr(>|z|)    
#> (Intercept)          1.0059     0.1461   6.886 5.74e-12 ***
#> TreatmentTreatment   0.3012     0.2877   1.047    0.295    
#> SiteExperimental    -0.1632     0.2598  -0.628    0.530    
#> ---
#> Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#> 
#> (Dispersion parameter for binomial family taken to be 1)
#> 
#>     Null deviance: 118.16  on 88  degrees of freedom
#> Residual deviance: 117.07  on 86  degrees of freedom
#> AIC: 244.13
#> 
#> Number of Fisher Scoring iterations: 4

R语言在二项式(glm)模型中使用比例作为偏移

1条答案

相关问题

热门标签

最新问答

R语言 在二项式(glm)模型中使用比例作为偏移

1条答案

相关问题

热门标签

最新问答

R语言在二项式(glm)模型中使用比例作为偏移