高级 会员 更新于 2026-05-05
潜在剖面分析在连续指标亚组识别中的应用
1. 一句话告诉你这是什么
潜在剖面分析(LPA)通过连续指标(如量表总分、生理测量值)将人群分成若干个异质性亚组。与 LCA 的区别在于指标是连续变量——比如用 SF-12 的生理和心理两个维度识别不同健康状态的患者。
2. 什么时候用,什么时候别用
适合用
- 全部指标为连续变量(量表得分、生化指标、身体测量值)
- 假设存在不同”剖面”的人群亚型
- 想验证分类变量背后的连续变量结构
不适合用
- 指标是分类变量(应用 LCA)
- 样本量太小( 时剖面参数估计不稳定)
- 指标间相关过高( 建议合并或使用双因子模型)
3. 数据准备清单
- 所有指标为连续变量(已检查正态性,近似正态即可)
- 变量已标准化(使不同量纲的指标可比)
- 无单变量极端离群值( 以外的值需关注)
- 样本量
- 缺失值已处理
4. 方法直觉
LPA 假设总体由 个潜在剖面组成,每个剖面对应一组特定的均值向量。模型估计每个剖面的均值、方差和占比,然后根据后验概率将个体分配到最可能的剖面。
是剖面 的占比, 是多元正态密度函数, 和 是剖面 的均值和协方差。
点击展开:LPA vs LCA 的关键区别
| 维度 | LCA | LPA |
|---|---|---|
| 指标类型 | 分类(0/1 或多分类) | 连续 |
| 估计参数 | 条件概率 | 均值 和方差 |
| 距离度量 | 概率匹配 | 欧氏距离(标准化后) |
| 常用软件 | poLCA, tidyLPA | tidyLPA, Mplus |
两者在模型选择指标(BIC、Entropy、LMR)上基本一致。
5. R 代码(复制即可跑)
library(tidyLPA)
# 模拟健康相关生命质量数据
set.seed(2026)
n <- 500
# 三个剖面:PCS(生理)和 MCS(心理)得分
p1 <- MASS::mvrnorm(n = 150, mu = c(55, 50), Sigma = diag(c(25, 25))) # 健康型
p2 <- MASS::mvrnorm(n = 200, mu = c(40, 45), Sigma = diag(c(30, 30))) # 生理受损型
p3 <- MASS::mvrnorm(n = 150, mu = c(45, 30), Sigma = diag(c(25, 35))) # 心理受损型
df <- as.data.frame(rbind(p1, p2, p3))
names(df) <- c("PCS", "MCS")
# 尝试 1-4 类模型
results <- estimate_profiles(df, n_profiles = 1:4)
# 比较拟合指标
compare_solutions(results) # ⬅ 看 BIC 和 Entropy
# 提取 3 剖面模型
m3 <- get_profiles(results, 3)
m3$model # ⬅ 剖面均值和占比
6. 结果怎么读
| 项目 | 值(示例) | 含义 |
|---|---|---|
| BIC | 12150 | 3 剖面模型 BIC 最小 |
| Entropy | 0.79 | 分类精度可接受(接近 0.8) |
| 剖面 1 | PCS = 55, MCS = 50 (30%) | “健康型”——两者均高 |
| 剖面 2 | PCS = 40, MCS = 45 (40%) | “生理受损型”——生理分低 |
| 剖面 3 | PCS = 45, MCS = 30 (30%) | “心理受损型”——心理分低 |
7. 论文里怎么写
中文: 采用潜在剖面分析基于生理(PCS)和心理(MCS)两个维度识别患者的健康状态亚组。模型比较表明三剖面模型最优(BIC = 12150, Entropy = 0.79),三个亚组分别命名为”健康型”(30%)、“生理受损型”(40%)和”心理受损型”(30%)。
English: Latent profile analysis based on physical (PCS) and mental (MCS) component scores was used to identify health status subgroups. A three-profile model demonstrated the best fit (BIC = 12150, Entropy = 0.79), classifying patients into “healthy” (30%), “physically impaired” (40%), and “mentally impaired” (30%) groups.
8. 三个最常见的坑
- 假设指标条件独立。 与 LCA 类似,LPA 假设同剖面内指标不相关。如果两个指标高度相关(如焦虑和抑郁评分),应放宽假设或使用允许指标相关的模型。
- 只靠统计量选剖面数。 6 剖面 BIC 可能比 3 剖面更小,但每个剖面可能只有 5% 的样本——不可靠。最终选择需要统计指标 + 理论意义 + 临床可解释三方验证。
- 忽视方差异质性。 默认模型假设各剖面方差相等。如果某些亚组变异性显著不同(如重症患者的评分更加离散),应指定方差异质模型。
会员内容 member
正在加载解锁组件...