入门 可在线运行 更新于 2026-05-05
多重线性回归在护理研究中的应用
1. 一句话告诉你这是什么
多重线性回归是用多个自变量预测一个连续型因变量的统计方法。在护理研究中,它回答”哪些因素独立影响结局”的问题——比如年龄、病程和合并症如何共同影响生活质量评分。
2. 什么时候用,什么时候别用
适合用
- 结局是连续变量(如焦虑评分、住院天数、血压值)
- 想控制混杂后看某个自变量对结局的独立效应
- 想了解多个变量联合解释结局的程度()
不适合用
- 结局是二分类变量(此时应用 Logistic 回归)
- 预测因子之间存在高度共线性(相关系数 > 0.8)
- 样本量远小于自变量个数(通常要求 , 为自变量数)
3. 数据准备清单
- 因变量为连续变量,正态性大致满足(可容忍中等偏态)
- 自变量至少有一个连续型或分类变量(分类变量需做哑变量编码)
- 无严重共线性(方差膨胀因子 VIF < 10)
- 无极端异常值(检查学生化残差,绝对值 > 3 需关注)
- 样本量 ( 为自变量个数)
4. 方法直觉
回归拟合一条直线,使得每个点到直线的垂直距离平方和最小。
可以把 理解为”在控制其他变量不变的前提下, 每增加一个单位, 平均变化多少”。这就是偏回归系数——回归的核心产出。
点击展开:系数估计的数学原理
系数通过普通最小二乘法(OLS)估计:
其中 是设计矩阵,第一列全为 1(截距项),后续每列是一个自变量。标准误由残差方差和 的对角元共同决定。
5. R 代码(复制即可跑)
# 加载包
library(broom)
library(car)
# 模拟护理研究数据
set.seed(2026)
n <- 200
df <- data.frame(
age = rnorm(n, mean = 65, sd = 10), # 年龄
los = rpois(n, lambda = 12), # 住院天数(连续)
pain = runif(n, min = 0, max = 10), # 疼痛评分 0-10
qol = rnorm(n, mean = 60, sd = 15) # 生活质量评分(结局)
)
# 拟合模型
fit <- lm(qol ~ age + los + pain, data = df)
# 模型摘要
summary(fit)
# VIF 共线性诊断
vif(fit) # ⬅ VIF > 10 说明共线性严重
# 用 broom 提取整洁系数表
tidy(fit, conf.int = TRUE) # ⬅ 含 95% 置信区间
6. 结果怎么读
以下四行是 summary(fit) 的核心输出:
| 项目 | 值(示例) | 含义 |
|---|---|---|
| 截距 | 所有自变量为 0 时,生活质量的基线值 | |
| 年龄系数 | 年龄每增加 1 岁,qol 平均下降 0.12 分 | |
| 疼痛系数 | 疼痛每增加 1 分,qol 平均下降 1.35 分 | |
| 三个变量共同解释 qol 变异度的 31% |
7. 论文里怎么写
中文: 采用多重线性回归分析年龄、住院天数和疼痛评分对生活质量的影响。模型整体显著(),调整 。疼痛评分是生活质量的独立预测因素(, 95% CI , ),疼痛越重,生活质量越低。
English: Multiple linear regression was used to examine the associations of age, length of stay, and pain score with quality of life. The overall model was significant (, adjusted ). Pain score was an independent predictor of quality of life (, 95% CI , ), indicating that higher pain levels were associated with lower quality of life.
8. 三个最常见的坑
- 只看 p 值,不看效应量。 大样本下即使微弱的关联也会显著,需要同时关注系数大小和 ,判断”有没有用”而非仅仅”有没有差异”。
- 忽视共线性。 两个高度相关的自变量同时放入模型,会导致标准误膨胀、系数不可靠。进模型前先做相关矩阵或 VIF 诊断。
- 缺失值处理不当。 R 的
lm()默认删除含缺失值的整行(complete-case analysis),如果缺失 > 5% 应优先考虑多重插补或极大似然方法。
在线运行
在线运行
点击"运行"按钮,在浏览器中执行 R 分析。首次使用需等待 WebR 初始化。