科研进展

eClinicalMedicine|钟南山院士/卢文菊教授团队发表基于全肺吸气相定量CT的慢阻肺筛查工具—AutoCOPD模型

2025-04-11386

研究亮点

1、首次在社区和临床人群中应用定量CT(QCT)、调查问卷和结构化CT文本的多模态数据融合和比较策略进行大样本、多中心回顾性研究

2、基于10个QCT特征即可在由高度异质性和多种族人群组成的数据集中准确识别慢阻肺• 在不同的亚组人群(包括性别、年龄、身体质量指数、吸烟状况、教育水平、CT设备和扫描层厚、慢性呼吸系统疾病、过敏性疾病、小气道功能障碍、外周血嗜酸性粒细胞计数和代表性CT征象)中均有良好的筛查性能(AUCs为0.714至1,中位数0.860)

3、基于该模型构建了一个免费、用户友好、功能丰富的在线web应用,与临床筛查模式高度兼容(https://lwj-lab.shinyapps.io/autocopd/)


近日,由广州医科大学附属第一医院、广州国家实验室、广州呼吸健康研究院、国家呼吸医学中心、呼吸疾病全国重点实验室钟南山院士/卢文菊教授团队牵头,联合东软医疗影像技术团队,基于广州爱肺计划队列、中国三家分中心及美国国家肺部筛查试验(NLST)队列5个中心,利用QCT特征、调查问卷和结构化CT文本的多模态数据进行建模和比较,最终明确了基于QCT特征的高效能慢阻肺筛查模型(AutoCOPD),为社区及医院潜在慢阻肺患者的风险评估提供了可靠工具。

该研究成果“AutoCOPD–A Novel and Practical Machine Learning Model for COPD Detection Using Whole-Lung Inspiratory Quantitative CT Measurements: A Retrospective, Multicenter Study”已在国际知名学术期刊、《柳叶刀》子刊eClinicalMedicine(2025中科院一区Top,影响因子9.6)正式发表。

1744681589446265.png

图1 研究题目及作者


研究背景

慢阻肺的诊断不足是一个全球性问题。中国成人肺部健康(CPH)研究显示,我国慢阻肺患者人数约1亿,其中60.2%的慢阻肺患者没有典型症状,并且只有12%的慢阻肺患者在调查前接受过肺功能检查,充分说明慢阻肺早期症状隐匿、公众知晓率不足、诊断率低下。晚期患者又因治疗效果不佳导致生活质量差,病死率高,增加社会经济与医疗负担。近40年来,尽管慢阻肺的诊治水平明显提升,但仍缺乏疾病早期防控的有效工具。随着国内外低剂量螺旋CT(LDCT)肺癌筛查的广泛开展,利用冗余的胸部CT图像进行慢阻肺筛查,显著提高慢阻肺检出率,从而大幅提高医疗资源利用率,减轻宏观经济和医疗保健体系的巨大负担。基于此,东软医疗与广州呼吸健康研究院在前期进行科研攻关,研发出胸部QCT影像处理软件NeuLungCARE-QA,该软件基于胸部平扫CT影像,能快速定量评估肺实质CT值(低衰减区百分比LAA%)与支气管相关形态学参数(包括气道管壁面积百分比WA%、气道管壁厚度WT、气道管腔直径LD),已取得国家药品监督管理局批准。为此,团队基于大样本、多中心的跨学科合作,使用LDCT图像开发了基于全肺吸气相QCT的慢阻肺筛查工具—AutoCOPD模型。


研究设计

1、临床队列本项研究首先从4个中心回顾性收集了跨度2017年4月至2024年5月的3653例受试者(1768例慢阻肺患者和1885例非慢阻肺对照)。广州社区人群(爱肺计划队列)的数据用于模型开发和内部测试,中国三个中心(广州医科大学附属第一医院,襄阳市中心医院和西安交通大学第二附属医院)的数据用于外部验证和明确模型在确诊患者和标准剂量CT图像的泛化性。美国NLST队列中453例受试者(112例慢阻肺患者和341例非慢阻肺对照)数据用于外部验证和明确模型在不同种族及LDCT图像的泛化性。

1744681745681720.png

图2 研究设计


2、模型建立与性能比较

使用擅长处理结构化数据的极端梯度提升(XGBoost)算法作为预测模型核心。为了确定最佳方案,基于调查问卷、QCT、结构化CT文本的单模态和多模态组合训练了七个模型,分别为:调查问卷模型、QCT模型、结构化CT文本模型、调查问卷+QCT模型、调查问卷+结构化CT文本模型、QCT+结构化CT文本模型以及调查问卷+QCT+结构化CT文本模型。

使用擅长处理结构化数据的极端梯度提升(XGBoost)算法作为预测模型核心。为了确定最佳方案,基于调查问卷、QCT、结构化CT文本的单模态和多模态组合训练了七个模型,分别为:调查问卷模型、QCT模型、结构化CT文本模型、调查问卷+QCT模型、调查问卷+结构化CT文本模型、QCT+结构化CT文本模型以及调查问卷+QCT+结构化CT文本模型。

为了减少模型过拟合风险并便于临床使用,我们采用了混合特征筛选方法。首先,将方差为零或接近零的特征排除。其次,使用不同单模型方案(调查问卷、QCT和结构化CT文本)中的所有剩余特征拟合初始XGBoost模型,然后分别提取依据沙普利加性解释(SHAP)值排名的前10个变量来训练最终的XGBoost模型。初始多模态模型由构成最终单模态模型的特征组合组成,而最终的多模态模型由这些组合中选出的前10个特征组成。模型超参数基于10折交叉验证的贝叶斯优化算法进行调整。此外,用对数损失函数评价模型性能,并选择具有最高AUC的模型。

模型首先在内部验证队列中进行验证。使用AUC、灵敏度、特异度、准确率、阴性预测值(NPV)、阳性预测值(PPV)和F1分数进行评价。用2000次分层自助复制计算AUC的95%置信区间(CIs),并使用DeLong检验计算所有模型AUC的显著性,结合整体性能筛选最佳模型。同时,使用上述指标在外部验证队列中评价最佳模型。使用lowess函数绘制模型校准曲线,并使用Brier评分和Hosmer-Lemeshow(HL)检验对模型校准度进行评估。最后使用决策曲线分析(DCA)对模型的潜在临床效用进行评估。


研究结果

1、基于QCT模态的慢阻肺筛查模型--AutoCOPD模型

通过SHAP分析获得每个初始模型前10个贡献度最高的特征。首先,全特征模型由于前10个特征仅包含QCT和调查问卷模态而不纳入后续分析。表1和图3显示了其他六种方案最终模型性能。总的来说,未出现模型过拟合。在内部验证队列中,调查问卷[AUC = 0·667 (95% CI: 0·610–0·725)]和结构化CT文本[AUC = 0·711 (95% CI: 0·655–0·767)]模型,以及二者的组合[AUC = 0·698 (95% CI: 0·641–0·754)]模型显示出较差的稳健性。相反,QCT方案保持了稳健的分类能力[AUC = 0·860 (95% CI: 0·823–0·898)]。

此外,纳入QCT特征未能提高调查问卷[AUC = 0·858 (95% CI: 0·819–0·896)]和结构化CT文本[AUC = 0·859 (95% CI: 0·821–0·898)]模型性能。DeLong检验显示,QCT模型和所有组合模型的AUC之间没有显著差异(P > 0.05;图3)。考虑到临床应用的便携性,选定QCT模型作为最佳模型,即AutoCOPD。

1744681860675683.jpg

表1 基于不同方案的XGBoost模型的慢阻肺检测性能

1744681893818578.png

图3 六种方案的模型评价


2、AutoCOPD模型综合性能评估

AutoCOPD在无缺失值插补的四个外部验证队列数据中接受评估,以验证模型泛化性。如表2所示,AutoCOPD表现出优良的预测性能,外部验证队列1-4的AUC分别为 0·915 (95% CI: 0·898–0·931), 0·903(95% CI: 0·864–0·943), 0·914 (95% CI: 0·882–0·947)和 0·881 (95% CI: 0·846–0·915)。AutoCOPD的校准性能在中国的三个外部验证队列中表现良好(图4),并且HL检验差异没有统计学意义(P > 0·05)。总体DCA表明,在0·12到0·66的慢阻肺风险阈值范围内,与将所有慢阻肺患者视为患有或未患有慢阻肺的策略相比,AutoCOPD的净效益大于零(图4),即使该模型在NLST队列中表现出较差的校准性能(P < 2·2e-16)。鉴于肺叶分割和气道树建模需要大量的图像预处理,我们探索了仅使用LAA-950数据的AutoCOPD来检测慢阻肺的性能。

结果表明,尽管其整体稳健性弱于输入完整特征的AutoCOPD(表2),但其具有可接受的预测性能,这有利于AutoCOPD模型被更广泛地用于慢阻肺筛查。在亚组分析中,AutoCOPD在无缺失值插补的内部和外部验证队列数据中表现相对稳健,AUCs范围为0·714至1,AUCs的中位数为0·860,表明不同的CT采集协议或基线资料并没有显著影响其预测性能。

1744681965633429.png

表2 AutoCOPD和LAA-950的慢阻肺检测性能

1744681999920569.png

图4 AutoCOPD的校准度分析和DCA


总结

近年来,GOLD指南已明确提出胸部CT对慢阻肺评估具有重要作用。研究团队基于10个全肺吸气相QCT特征所研发的AutoCOPD模型适合常规临床场景,既可以作为基层医疗机构慢阻肺快速筛查工具,也可以实现对临床冗余的胸部CT图像提供一扫多查的功能,提高早期慢阻肺的检出率,助力全球慢阻肺防控工作。本研究得到了国家自然科学基金、广州国家实验室专项、广东省自然科学基金、广州市科学技术局重点研发计划、呼吸疾病全国重点实验室基金等项目基金的支持。


文章作者信息

通讯作者

广州医科大学附属第一医院卢文菊教授、钟南山院士、梁振宇教授、西安交通大学第二附属医院刘昀教授

第一作者

广州呼吸健康研究院2023级博士研究生林范杰、广州医科大学张子丽副教授、广州国家实验室王健教授、东软医疗梁翠霞高级工程师、广州医科大学附属第一医院许家璇博士和襄阳市中心医院曾宪升主任


通讯作者

1.png

卢文菊 教授、博士生导师

广州医科大学二级教授

“南山学者”优秀人才广东省

“珠江学者”特聘教授

广东省医学领军人才

广州医科大学呼吸疾病全国重点实验室科研管理部主任

精准医学中心负责人

广东省呼吸与健康学会肺栓塞与肺动脉高压专委会主任委员


2.png

钟南山 中国工程院院士、教授、博士生导师

共和国勋章获得者

国家呼吸系统疾病临床医学研究中心主任

国家呼吸医学中心名誉主任

广州国家实验室主任


3.png

梁振宇副主任医师

硕士生导师、博士后合作导师

广医一院国家呼吸临床研究中心项目研究与随访部副主任

中华医学会呼吸病学分会慢阻肺学组秘书

国家基层慢阻肺病防治专家委员会委员

广州市医师协会青年医师分会常委广州市高层次人才(青年后备)


4.png

刘昀 主任医师、教授、博士生导师

中华医学会变态反应学分会常委呼吸过敏性疾病学组组长

陕西省医学会变态反应分会主任委员

中国康复医学会变态反应性疾病康复专业委员会副主任委员

陕西省保健协会呼吸专业委员会副主任委员

陕西省中医药专家委员会副主任委员


第一作者


5.png

王健 教授、博士生导师

广州医科大学二级教授

广州国家实验室特聘研究员

呼吸疾病全国重点实验室间质性肺病和肺血管病方向负责人

广东省教育厅高校血管重点实验室主任

中华医学会呼吸分会肺血管病学组副组长

国家心血管中心右心委员会副主委


6.png

张子丽 副教授、硕士生导师、博士后合作导师

广州医科大学“南山学者”

广州市高层次人才

广东省呼吸与健康学会肺栓塞与肺动脉高压专委会副秘书长


7.png

曾宪升 主任医师、硕士生导师

襄阳市“隆中名医”

襄阳市医学会呼吸内科学专科分会主任委员

襄阳市呼吸内科医疗质量控制中心主任

襄阳市禽流感防治专家组组长

襄阳市中心医院呼吸内科二病区主任


640.png

林范杰

广州呼吸健康研究院2023级内科学博士研究生

师从我国慢阻肺/肺血管病著名专家卢文菊教授,以第一作者(含共同)在eClinicalMedicine、Am J Respir Cell Mol Biol、Int J Infect Dis、中国中医药信息杂志发表论文4篇

获发明/实用新型专利及软著授权4项

广州医科大学研究生国家奖学金、优秀研究生、优秀毕业研究生获得者


8.png

梁翠霞 高级工程师(副高)

东软医疗系统股份有限公司

慧影像软件研发中心物理及算法资深工程师


9.png

许家璇

住院医师重症医学科临床博士后