高级会员更新于 2026-05-05

潜在类别分析在护理人群亚组识别中的应用

🔒

会员专属内容

"潜在类别分析在护理人群亚组识别中的应用" 为会员级别内容。
输入激活码解锁完整方法论、代码模板与案例数据。

受 Cloudflare Turnstile 保护 · 解锁后 30 天内无需重复输入

还没有激活码？开通会员 →

1. 一句话告诉你这是什么

潜在类别分析（LCA）通过一组分类观察指标（如症状有无、健康等级）推断背后不可见的”潜在类别”——也就是把人群分成几个性质不同的亚组。在护理中用来回答”患者的症状模式能否分成几类”。

2. 什么时候用，什么时候别用

适合用

指标为二分类或多分类（如症状存在/不存在，功能等级 I/II/III）
假设人群存在异质性亚组（如不同症状模式的癌症患者）
想探索分类变量之间的结构关系

不适合用

指标全部为连续变量（应用潜在剖面分析或因子分析）
样本量太小（通常 $n \ge 300$ ，指标多时需更大样本）
有明确的先验分类标准（直接使用已有的临床分型更合适）

3. 数据准备清单

所有指标为分类变量（二分类或多分类）
指标个数建议 4-10 个（太少无法识别，太多计算不稳定）
样本量 $\ge 300$
缺失数据已处理（LCA 可容忍部分缺失，但最好完整）
已对指标做共线性检查（高度相关指标只保留一个）

4. 方法直觉

LCA 假设人群由 $C$ 个互斥的潜在类别组成，类别成员未知。模型估计两个参数：每个类别的占比（ $\gamma_c$ ）和每个类别内某个指标取特定值的概率（ $\rho_{cr}$ ）。

$P(Y = y) = \sum_{c=1}^{C} \gamma_c \prod_{r=1}^{R} \rho_{cr}^{I(y_r = 1)} (1 - \rho_{cr})^{I(y_r = 0)}$

简单理解：哪些人”长得很像”——他们有相似的症状模式，很可能是同一个潜在类别。

点击展开：确定最优类别数

常用拟合指标：

AIC / BIC / aBIC：越小越好，BIC 最常用
LMR-LRT / BLRT： $p < 0.05$ 说明 $C$ 类比 $C-1$ 类更好
Entropy： $\ge 0.7$ 可接受， $\ge 0.8$ 良好

最终选择需要结合指标值和临床可解释性。

5. R 代码（复制即可跑）

library(tidyLPA)                                           # ⬅ 也可用 poLCA

# 模拟症状数据：1000 人 × 6 个症状（0/1）
set.seed(2026)
n <- 1000
# 三个潜在类别：低负担 / 中负担 / 高负担
# 每个症状的出现概率在不同类别中不同

# 构建数据
p <- rbind(
  c(0.1, 0.2, 0.1, 0.3, 0.2, 0.1),                      # 类别 1：低
  c(0.4, 0.5, 0.3, 0.5, 0.4, 0.3),                      # 类别 2：中
  c(0.8, 0.7, 0.6, 0.9, 0.8, 0.7)                       # 类别 3：高
)
latent <- sample(1:3, n, replace = TRUE, prob = c(0.4, 0.35, 0.25))
data <- t(sapply(latent, function(c) rbinom(6, 1, p[c, ])))
df <- as.data.frame(data)
names(df) <- paste0("sym", 1:6)

# 尝试 1-4 类模型
results <- estimate_profiles(df,                                 # ⬅ 自动比较 1-4 类
                              n_profiles = 1:4)
compare_solutions(results)                                       # ⬅ 输出拟合指标表

# 提取最优模型（假设 3 类）
m3 <- get_profiles(results, 3)
m3$model                                                         # ⬅ 查看类别占比和条目概率

6. 结果怎么读

项目	值（示例）	含义
BIC	4230	与 2 类（4500）和 4 类（4250）相比最小，说明 3 类最优
Entropy	0.82	分类质量良好
类别 1 占比	40%	“低症状组”，所有症状概率 < 0.3
类别 3 占比	25%	“高症状组”，疲乏和疼痛概率 > 0.8

7. 论文里怎么写

中文： 采用潜在类别分析基于 6 个核心症状指标识别癌症患者症状模式。模型比较显示三分类模型最优（BIC = 4230, Entropy = 0.82），三个亚组分别命名为”低症状组”（40%）、“中度症状组”（35%）和”高症状组”（25%）。高症状组中疲乏和疼痛的出现概率均超过 80%。

English: Latent class analysis based on six core symptom indicators was used to identify distinct symptom patterns among cancer patients. A three-class model showed optimal fit (BIC = 4230, Entropy = 0.82), classifying patients into “low-symptom” (40%), “moderate-symptom” (35%), and “high-symptom” (25%) groups. The probabilities of fatigue and pain in the high-symptom group both exceeded 80%.

8. 三个最常见的坑

仅靠统计指标选类别。 BIC 最小的模型不一定临床可解释。最终模型的每个类别应该理论上合理、样本量不低于 5%。
指标过多导致模型收敛困难。 10 个以上的二分变量就需要大量样本。建议先做理论驱动筛选，保留最有鉴别力的 4-8 个指标。
忽略局部独立性假设。 LCA 假设类别内指标间相互独立——如果两个症状高度相关（如失眠和疲乏），应考虑合并或加入残差相关性。

会员内容 member

正在加载解锁组件...