高级 会员 更新于 2026-05-05

潜在类别分析在护理人群亚组识别中的应用

1. 一句话告诉你这是什么

潜在类别分析(LCA)通过一组分类观察指标(如症状有无、健康等级)推断背后不可见的”潜在类别”——也就是把人群分成几个性质不同的亚组。在护理中用来回答”患者的症状模式能否分成几类”。

2. 什么时候用,什么时候别用

适合用

  • 指标为二分类或多分类(如症状存在/不存在,功能等级 I/II/III)
  • 假设人群存在异质性亚组(如不同症状模式的癌症患者)
  • 想探索分类变量之间的结构关系

不适合用

  • 指标全部为连续变量(应用潜在剖面分析或因子分析)
  • 样本量太小(通常 n300n \ge 300,指标多时需更大样本)
  • 有明确的先验分类标准(直接使用已有的临床分型更合适)

3. 数据准备清单

  • 所有指标为分类变量(二分类或多分类)
  • 指标个数建议 4-10 个(太少无法识别,太多计算不稳定)
  • 样本量 300\ge 300
  • 缺失数据已处理(LCA 可容忍部分缺失,但最好完整)
  • 已对指标做共线性检查(高度相关指标只保留一个)

4. 方法直觉

LCA 假设人群由 CC 个互斥的潜在类别组成,类别成员未知。模型估计两个参数:每个类别的占比(γc\gamma_c)和每个类别内某个指标取特定值的概率(ρcr\rho_{cr})。

P(Y=y)=c=1Cγcr=1RρcrI(yr=1)(1ρcr)I(yr=0)P(Y = y) = \sum_{c=1}^{C} \gamma_c \prod_{r=1}^{R} \rho_{cr}^{I(y_r = 1)} (1 - \rho_{cr})^{I(y_r = 0)}

简单理解:哪些人”长得很像”——他们有相似的症状模式,很可能是同一个潜在类别。

点击展开:确定最优类别数

常用拟合指标:

  • AIC / BIC / aBIC:越小越好,BIC 最常用
  • LMR-LRT / BLRT:p<0.05p < 0.05 说明 CC 类比 C1C-1 类更好
  • Entropy:0.7\ge 0.7 可接受,0.8\ge 0.8 良好

最终选择需要结合指标值和临床可解释性。

5. R 代码(复制即可跑)

library(tidyLPA)                                           # ⬅ 也可用 poLCA

# 模拟症状数据:1000 人 × 6 个症状(0/1)
set.seed(2026)
n <- 1000
# 三个潜在类别:低负担 / 中负担 / 高负担
# 每个症状的出现概率在不同类别中不同

# 构建数据
p <- rbind(
  c(0.1, 0.2, 0.1, 0.3, 0.2, 0.1),                      # 类别 1:低
  c(0.4, 0.5, 0.3, 0.5, 0.4, 0.3),                      # 类别 2:中
  c(0.8, 0.7, 0.6, 0.9, 0.8, 0.7)                       # 类别 3:高
)
latent <- sample(1:3, n, replace = TRUE, prob = c(0.4, 0.35, 0.25))
data <- t(sapply(latent, function(c) rbinom(6, 1, p[c, ])))
df <- as.data.frame(data)
names(df) <- paste0("sym", 1:6)

# 尝试 1-4 类模型
results <- estimate_profiles(df,                                 # ⬅ 自动比较 1-4 类
                              n_profiles = 1:4)
compare_solutions(results)                                       # ⬅ 输出拟合指标表

# 提取最优模型(假设 3 类)
m3 <- get_profiles(results, 3)
m3$model                                                         # ⬅ 查看类别占比和条目概率

6. 结果怎么读

项目值(示例)含义
BIC4230与 2 类(4500)和 4 类(4250)相比最小,说明 3 类最优
Entropy0.82分类质量良好
类别 1 占比40%“低症状组”,所有症状概率 < 0.3
类别 3 占比25%“高症状组”,疲乏和疼痛概率 > 0.8

7. 论文里怎么写

中文: 采用潜在类别分析基于 6 个核心症状指标识别癌症患者症状模式。模型比较显示三分类模型最优(BIC = 4230, Entropy = 0.82),三个亚组分别命名为”低症状组”(40%)、“中度症状组”(35%)和”高症状组”(25%)。高症状组中疲乏和疼痛的出现概率均超过 80%。

English: Latent class analysis based on six core symptom indicators was used to identify distinct symptom patterns among cancer patients. A three-class model showed optimal fit (BIC = 4230, Entropy = 0.82), classifying patients into “low-symptom” (40%), “moderate-symptom” (35%), and “high-symptom” (25%) groups. The probabilities of fatigue and pain in the high-symptom group both exceeded 80%.

8. 三个最常见的坑

  1. 仅靠统计指标选类别。 BIC 最小的模型不一定临床可解释。最终模型的每个类别应该理论上合理、样本量不低于 5%。
  2. 指标过多导致模型收敛困难。 10 个以上的二分变量就需要大量样本。建议先做理论驱动筛选,保留最有鉴别力的 4-8 个指标。
  3. 忽略局部独立性假设。 LCA 假设类别内指标间相互独立——如果两个症状高度相关(如失眠和疲乏),应考虑合并或加入残差相关性。

会员内容 member

正在加载解锁组件...