高级 会员 更新于 2026-05-05

广义估计方程在护理纵向数据中的应用

1. 一句话告诉你这是什么

广义估计方程(GEE)处理”一个对象测了多次”的纵向或聚类数据,在考虑组内相关性的前提下估计全局平均效应。它回答”随时间变化趋势如何”——比如术后 1、3、6 个月的功能恢复轨迹。

2. 什么时候用,什么时候别用

适合用

  • 同一对象有两次以上重复测量(如基线、3 月、6 月、12 月)
  • 结局可以是连续、二分类或计数数据(通过 link 函数指定)
  • 研究兴趣在”群体平均趋势”而非个体异质性

不适合用

  • 只有一次测量(此时应用一般线性模型或 Logistic 回归)
  • 关注个体水平的变化模式而非群体平均(应用混合效应模型)
  • 缺失非随机或缺失机制为不可忽略(GEE 要求完全随机缺失)

3. 数据准备清单

  • 数据为长格式:每行是一个对象的一次测量
  • 有唯一 ID 变量标识同一对象的多次测量
  • 时间变量已编码(如 0/3/6/12 月)
  • 结局变量类型确定(连续/二分类/计数)
  • 工作相关结构已预设(通常选 exchangeable 或 ar1)

4. 方法直觉

GEE 扩展了广义线性模型(GLM),在回归方程中嵌入一个”工作相关矩阵”来描述组内测量间的相关性。它给出的是人口平均效应——在群体层面上 X 变化一个单位时 Y 平均变化多少。

g(E[Yit])=Xitβg(E[Y_{it}]) = X_{it}^\top \beta

其中 g()g(\cdot) 是连接函数(连续变量用 identity,二分类用 logit),YitY_{it} 是对象 ii 在时间 tt 的测量值。

点击展开:工作相关结构的选择
  • exchangeable(可交换): 任意两次测量之间相关性相同。适用于无时间顺序的聚类数据(如一个医院内的患者)。
  • ar1(一阶自回归): 相距越近的测量越相关。适用于时间序列纵向数据。
  • unstructured(无结构化): 不预设相关模式,每个时间点对各自估计一个参数。时间点少(5\le 5)且数据量大时可选。

5. R 代码(复制即可跑)

library(geepack)

# 模拟护理纵向研究数据
set.seed(2026)
n_id <- 100                                              # 100 例患者
df <- expand.grid(id = 1:n_id, time = c(0, 3, 6, 12))   # 4 次随访

df$y <- with(df, 50 - 2 * time + rnorm(nrow(df), mean = 0, sd = 5))  # 功能评分

# 拟合 GEE(可交换相关结构)
fit <- geeglm(y ~ time, data = df, id = id,
              family = gaussian(link = "identity"),
              corstr = "exchangeable")

summary(fit)

# 若结局为二分类
# fit_bin <- geeglm(fall ~ age + los, data = df, id = id,
#                   family = binomial(link = "logit"),
#                   corstr = "ar1")                      # ⬅ 时间序列选 ar1

6. 结果怎么读

项目值(示例)含义
截距β0=50.2\beta_0 = 50.2基线(time = 0)时的平均功能评分
时间系数β=1.98\beta = -1.98^{***}每经过 1 个月,评分平均下降 1.98 分
工作相关exchangeable假设任意两次测量的组内相关强度相同
QIC2450准似然信息准则,用于比较不同模型(越小越好)

p<0.001^{***} p < 0.001

7. 论文里怎么写

中文: 采用广义估计方程分析术后功能评分随时间的变化趋势。以 exchangeable 作为工作相关结构,结果显示功能评分在 12 个月随访期内显著下降(β=1.98\beta = -1.98, 95% CI [2.45,1.51][-2.45, -1.51], p<0.001p < 0.001),平均每月下降约 2 分。

English: Generalized estimating equations with an exchangeable working correlation structure were used to examine the trajectory of functional scores over time. The functional score decreased significantly during the 12-month follow-up (β=1.98\beta = -1.98, 95% CI [2.45,1.51][-2.45, -1.51], p<0.001p < 0.001), with an average decline of approximately 2 points per month.

8. 三个最常见的坑

  1. 忽视缺失模式。 GEE 要求缺失完全随机(MCAR),如果缺失与结局相关(如病情越重越容易失访),估计将有偏。
  2. 相关结构指定错误。 时间间隔不均匀时 ar1 不合适,选 exchangeable 更稳健。如果不确定,选独立结构(independence)并用 sandwich 标准误。
  3. 样本量不足每组 < 40。 GEE 的 sandwich 方差估计在小样本时表现不佳,n<40n < 40 时考虑混合效应模型或小样本校正。

会员内容 member

正在加载解锁组件...