技术架构
Delphi-2M采用改进的GPT-2架构,包含220万个参数。关键技术改进包括:
- 使用连续年龄编码替代离散位置标记
- 采用指数等待时间模型预测事件发生时间
- 将每个诊断记录视为序列中的标记(token)
数据处理
系统将个人的健康轨迹表示为诊断代码时间线,同时整合生活方式因素(吸烟状况、BMI类别)和人口统计数据。在训练数据中,每个健康轨迹平均包含18个疾病标记,时间跨度从出生到80岁。
训练与验证
- 训练数据:402,799名英国生物样本库参与者
- 验证数据:190万份丹麦健康记录(无需额外训练)
- 预测准确率:近期76%,10年后70%
性能表现
在心血管疾病预测方面达到AUC 0.70,与专业临床工具相当。关键优势在于能同时评估所有疾病风险,而非单一病症。
技术特点
- 生成合成健康轨迹能力
- 自动学习疾病间关联模式
- 支持种群级疾病负担估计
- 可产生保护隐私的合成数据
局限性
- 20年后预测准确率降至60-70%
- 训练数据存在人口统计学偏差
- 对罕见病预测效果有限
- 需要更多样化数据验证
应用前景
该系统展示了Transformer架构在医疗预测领域的潜力,为个性化医疗和公共卫生干预提供了新的技术路径。