入门可在线运行更新于 2026-05-05

多重线性回归在护理研究中的应用

1. 一句话告诉你这是什么

多重线性回归是用多个自变量预测一个连续型因变量的统计方法。在护理研究中，它回答”哪些因素独立影响结局”的问题——比如年龄、病程和合并症如何共同影响生活质量评分。

2. 什么时候用，什么时候别用

适合用

结局是连续变量（如焦虑评分、住院天数、血压值）
想控制混杂后看某个自变量对结局的独立效应
想了解多个变量联合解释结局的程度（ $R^2$ ）

不适合用

结局是二分类变量（此时应用 Logistic 回归）
预测因子之间存在高度共线性（相关系数 > 0.8）
样本量远小于自变量个数（通常要求 $n \geq 10 \times k$ ， $k$ 为自变量数）

3. 数据准备清单

因变量为连续变量，正态性大致满足（可容忍中等偏态）
自变量至少有一个连续型或分类变量（分类变量需做哑变量编码）
无严重共线性（方差膨胀因子 VIF < 10）
无极端异常值（检查学生化残差，绝对值 > 3 需关注）
样本量 $n \geq 10 \times k$ （ $k$ 为自变量个数）

4. 方法直觉

回归拟合一条直线，使得每个点到直线的垂直距离平方和最小。

$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon$

可以把 $\beta$ 理解为”在控制其他变量不变的前提下， $X$ 每增加一个单位， $Y$ 平均变化多少”。这就是偏回归系数——回归的核心产出。

点击展开：系数估计的数学原理

系数通过普通最小二乘法（OLS）估计：

$\hat{\beta} = (X^{\top}X)^{-1}X^{\top}Y$

其中 $X$ 是设计矩阵，第一列全为 1（截距项），后续每列是一个自变量。标准误由残差方差和 $(X^{\top}X)^{-1}$ 的对角元共同决定。

5. R 代码（复制即可跑）

# 加载包
library(broom)
library(car)

# 模拟护理研究数据
set.seed(2026)
n <- 200
df <- data.frame(
  age    = rnorm(n, mean = 65, sd = 10),         # 年龄
  los    = rpois(n, lambda = 12),                 # 住院天数（连续）
  pain   = runif(n, min = 0, max = 10),           # 疼痛评分 0-10
  qol    = rnorm(n, mean = 60, sd = 15)           # 生活质量评分（结局）
)

# 拟合模型
fit <- lm(qol ~ age + los + pain, data = df)

# 模型摘要
summary(fit)

# VIF 共线性诊断
vif(fit)                                          # ⬅ VIF > 10 说明共线性严重

# 用 broom 提取整洁系数表
tidy(fit, conf.int = TRUE)                        # ⬅ 含 95% 置信区间

6. 结果怎么读

以下四行是 summary(fit) 的核心输出：

项目	值（示例）	含义
截距	$\hat{\beta}_0 = 58.2$	所有自变量为 0 时，生活质量的基线值
年龄系数	$\hat{\beta} = -0.12^{***}$	年龄每增加 1 岁，qol 平均下降 0.12 分
疼痛系数	$\hat{\beta} = -1.35^{***}$	疼痛每增加 1 分，qol 平均下降 1.35 分
$R^2$	$0.31$	三个变量共同解释 qol 变异度的 31%

$^{***} p < 0.001$

7. 论文里怎么写

中文： 采用多重线性回归分析年龄、住院天数和疼痛评分对生活质量的影响。模型整体显著（ $F = 28.6, p < 0.001$ ），调整 $R^2 = 0.30$ 。疼痛评分是生活质量的独立预测因素（ $\beta = -1.35$ , 95% CI $[-1.70, -1.00]$ , $p < 0.001$ ），疼痛越重，生活质量越低。

English: Multiple linear regression was used to examine the associations of age, length of stay, and pain score with quality of life. The overall model was significant ( $F = 28.6, p < 0.001$ , adjusted $R^2 = 0.30$ ). Pain score was an independent predictor of quality of life ( $\beta = -1.35$ , 95% CI $[-1.70, -1.00]$ , $p < 0.001$ ), indicating that higher pain levels were associated with lower quality of life.

8. 三个最常见的坑

只看 p 值，不看效应量。 大样本下即使微弱的关联也会显著，需要同时关注系数大小和 $R^2$ ，判断”有没有用”而非仅仅”有没有差异”。
忽视共线性。 两个高度相关的自变量同时放入模型，会导致标准误膨胀、系数不可靠。进模型前先做相关矩阵或 VIF 诊断。
缺失值处理不当。 R 的 lm() 默认删除含缺失值的整行（complete-case analysis），如果缺失 > 5% 应优先考虑多重插补或极大似然方法。

在线运行

点击"运行"按钮，在浏览器中执行 R 分析。首次使用需等待 WebR 初始化。