入门 可在线运行 更新于 2026-05-05

多重线性回归在护理研究中的应用

1. 一句话告诉你这是什么

多重线性回归是用多个自变量预测一个连续型因变量的统计方法。在护理研究中,它回答”哪些因素独立影响结局”的问题——比如年龄、病程和合并症如何共同影响生活质量评分。

2. 什么时候用,什么时候别用

适合用

  • 结局是连续变量(如焦虑评分、住院天数、血压值)
  • 想控制混杂后看某个自变量对结局的独立效应
  • 想了解多个变量联合解释结局的程度(R2R^2

不适合用

  • 结局是二分类变量(此时应用 Logistic 回归)
  • 预测因子之间存在高度共线性(相关系数 > 0.8)
  • 样本量远小于自变量个数(通常要求 n10×kn \geq 10 \times kkk 为自变量数)

3. 数据准备清单

  • 因变量为连续变量,正态性大致满足(可容忍中等偏态)
  • 自变量至少有一个连续型或分类变量(分类变量需做哑变量编码)
  • 无严重共线性(方差膨胀因子 VIF < 10)
  • 无极端异常值(检查学生化残差,绝对值 > 3 需关注)
  • 样本量 n10×kn \geq 10 \times kkk 为自变量个数)

4. 方法直觉

回归拟合一条直线,使得每个点到直线的垂直距离平方和最小。

Y=β0+β1X1+β2X2++βkXk+εY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon

可以把 β\beta 理解为”在控制其他变量不变的前提下,XX 每增加一个单位,YY 平均变化多少”。这就是偏回归系数——回归的核心产出。

点击展开:系数估计的数学原理

系数通过普通最小二乘法(OLS)估计:

β^=(XX)1XY\hat{\beta} = (X^{\top}X)^{-1}X^{\top}Y

其中 XX 是设计矩阵,第一列全为 1(截距项),后续每列是一个自变量。标准误由残差方差和 (XX)1(X^{\top}X)^{-1} 的对角元共同决定。

5. R 代码(复制即可跑)

# 加载包
library(broom)
library(car)

# 模拟护理研究数据
set.seed(2026)
n <- 200
df <- data.frame(
  age    = rnorm(n, mean = 65, sd = 10),         # 年龄
  los    = rpois(n, lambda = 12),                 # 住院天数(连续)
  pain   = runif(n, min = 0, max = 10),           # 疼痛评分 0-10
  qol    = rnorm(n, mean = 60, sd = 15)           # 生活质量评分(结局)
)

# 拟合模型
fit <- lm(qol ~ age + los + pain, data = df)

# 模型摘要
summary(fit)

# VIF 共线性诊断
vif(fit)                                          # ⬅ VIF > 10 说明共线性严重

# 用 broom 提取整洁系数表
tidy(fit, conf.int = TRUE)                        # ⬅ 含 95% 置信区间

6. 结果怎么读

以下四行是 summary(fit) 的核心输出:

项目值(示例)含义
截距β^0=58.2\hat{\beta}_0 = 58.2所有自变量为 0 时,生活质量的基线值
年龄系数β^=0.12\hat{\beta} = -0.12^{***}年龄每增加 1 岁,qol 平均下降 0.12 分
疼痛系数β^=1.35\hat{\beta} = -1.35^{***}疼痛每增加 1 分,qol 平均下降 1.35 分
R2R^20.310.31三个变量共同解释 qol 变异度的 31%

p<0.001^{***} p < 0.001

7. 论文里怎么写

中文: 采用多重线性回归分析年龄、住院天数和疼痛评分对生活质量的影响。模型整体显著(F=28.6,p<0.001F = 28.6, p < 0.001),调整 R2=0.30R^2 = 0.30。疼痛评分是生活质量的独立预测因素(β=1.35\beta = -1.35, 95% CI [1.70,1.00][-1.70, -1.00], p<0.001p < 0.001),疼痛越重,生活质量越低。

English: Multiple linear regression was used to examine the associations of age, length of stay, and pain score with quality of life. The overall model was significant (F=28.6,p<0.001F = 28.6, p < 0.001, adjusted R2=0.30R^2 = 0.30). Pain score was an independent predictor of quality of life (β=1.35\beta = -1.35, 95% CI [1.70,1.00][-1.70, -1.00], p<0.001p < 0.001), indicating that higher pain levels were associated with lower quality of life.

8. 三个最常见的坑

  1. 只看 p 值,不看效应量。 大样本下即使微弱的关联也会显著,需要同时关注系数大小和 R2R^2,判断”有没有用”而非仅仅”有没有差异”。
  2. 忽视共线性。 两个高度相关的自变量同时放入模型,会导致标准误膨胀、系数不可靠。进模型前先做相关矩阵或 VIF 诊断。
  3. 缺失值处理不当。 R 的 lm() 默认删除含缺失值的整行(complete-case analysis),如果缺失 > 5% 应优先考虑多重插补或极大似然方法。

在线运行

在线运行

点击"运行"按钮,在浏览器中执行 R 分析。首次使用需等待 WebR 初始化。