成果亮相Nature子刊!杨子峰教授联合金域医学、广东省感染性疾病智能化诊断技术工程研究中心研发AI模型预测呼吸道病毒传播风险
2025-02-08138呼吸道病毒是全球范围内急性呼吸道感染(ARI)的主要病因。为进一步探索呼吸道病毒感染与气候因素的复杂联系,准确预测呼吸道病毒的传播风险,助力制定更有效的疾病防控策略,实验室杨子峰教授团队联合金域医学团队、广州医科大学金域检验学院广东省感染性疾病智能化诊断技术工程研究中心、广州市传染性疾病临床快速诊断与预警重点实验室曾志奇博士结合气象环境数据与机器学习方法,开发了一种全新的呼吸道病毒感染风险预测模型,为呼吸道病毒的早期预警和防控提供了有力的科学依据。
2月3日,该研究成果以“Development of a respiratory virus risk model with environmental data based on interpretable machine learning methods”为题在气候学和大气科学领域国际顶级学术期刊、地球科学领域三大Nature子刊之一的《npj Climate and Atmospheric Science》(中科院1区,5年影响因子:9.7)发表。以下为文章全文翻译:
基于可解释机器学习方法的环境数据呼吸道病毒风险模型开发
摘要
近年来,大量研究探讨了大气环境因素与呼吸道病毒感染之间的关系。但现有研究在数据规模、地域覆盖及病原体多样性方面存在显著局限。本研究旨在通过机器学习方法开发一个全国性的呼吸道病毒感染风险预测模型。我们采用了CRFC算法,一种基于随机森林的多标签分类方法,用于预测多种呼吸道病毒的存在。该模型整合了每个病毒类别的二分类结果,并结合了空气质量和气象数据以提高其准确性。数据收集来自2016年至2021年间中国31个地区,涵盖病原检测、空气质量指数和气象测量数据。模型性能通过ROC曲线、AUC分数和精准率-召回率曲线进行评估。模型在各项指标上均表现出色,平均整体准确率为0.76,宏观灵敏度为0.75,宏观精准率为0.77,平均AUC分数为0.9。基于SHAP框架的模型可解释性分析表明,年龄、二氧化氮浓度及气象条件等参数对预测结果具有重要贡献。本研究建立的模型实现了环境数据与临床信息的深度融合,为呼吸道病毒风险评估提供了可靠工具,其性能指标显示在临床决策和公共卫生规划中具有应用潜力。后续研究将重点优化模型架构并拓展其在不同人群和地域的适用性。
引言
呼吸道病毒是急性呼吸道感染(ARI)的主要原因,广泛存在于临床环境中,并显著影响全球发病率和死亡率。例如,呼吸道合胞病毒和甲型流感病毒已被确定为儿童严重急性呼吸道感染的主要元凶[1-2]。而人鼻病毒(HRV)等尚未得到充分证实。多种病毒的共同感染是指同一宿主在同一时间内存在两种或更多不同的病毒。这种现象在自然界中相对常见,对公共卫生构成重大威胁[3]。
COVID–19大流行表明了人类呼吸道病毒感染的巨大影响,导致一系列呼吸道症状和重症疾病,造成全球发病率、死亡率和经济损失大幅上升[4]。常见的呼吸道病毒包括流感病毒(IV)、人冠状病毒(HcoV)、呼吸道合胞病毒(RSV)、副流感病毒(PIV)、腺病毒(ADV)、人偏肺病毒(hMPV)和博卡病毒(HboV)[5]。其中,IV、RSV、PIV 和 hMPV 是与急性下呼吸道感染相关的主要病原体,带来了巨大的疾病负担,尤其是在幼儿和老年人中。根据世界卫生组织(WHO)的数据,流感病毒导致全球每年约有 300 万至 500 万例严重病例,和约有 29 万至 65 万例呼吸道死亡病例[6]。RSV 预计导致全球每年3380 万例下呼吸道感染,其中 340 万例需要住院治疗,5 岁以下儿童至少有 6.6 万例死亡,在发展中国家更为普遍[7]。
呼吸道病毒的流行病学特征不仅因地区、季节和年份而异,还可能受到温度、湿度、降水、气流和通风等环境因素的影响[8]。此外,空气污染已被确定为呼吸道病毒感染的一个风险因素,氮氧化物(NOX)、二氧化硫(SO2)、直径为 2.5 微米或更小的细颗粒物(PM2.5)以及直径为 10 微米或更小的颗粒物(PM10)与 RSV 发病率增加有关[9]。因此,持续监测和了解特定地区呼吸道病毒的传播模式和流行病学特征对于控制急性呼吸道流行至关重要。
鉴于导致呼吸道感染的病毒种类繁多,准确识别病原体对于有效治疗至关重要。而传统的临床检查方法可能无法及时、准确地识别病毒,因此需要进行病毒特异性检测。检测呼吸道感染病毒通常涉及痰培养、血液检测和分子生物学技术。这些方法存在一定的局限性,包括时间延迟[10]和技术要求[11]。
呼吸道病原体监测和预测的趋势在不断变化,迫切需要更复杂的模型来准确预测呼吸道疾病的趋势。因此,对呼吸道病毒的监测和预测值得深入研究,以帮助研究人员和临床医生制定精确的诊断方法。为了弥补中国呼吸道疾病预测能力的不足并加强临床诊断工作,本研究在全面的呼吸道病毒检测数据集上采用链式随机森林分类器(CRFC)模型预测呼吸道病毒检测结果[12-13]。通过整合空气质量与气象数据,我们的模型不仅能够精准预测呼吸道病毒感染的发生,还对有助于公共服务的发展。
结果
一、基线特征
整合病原体检测、空气质量和气象数据后,共获得 528,471 条记录。在筛选出检测结果呈阳性的目标病原体后,选取 2016 年 1 月 9 日至 2021 年 12 月 22 日期间的 19,161 条记录用于模型训练和测试。此外,我们计算了每个省份提供病原体数据的医院总数,并绘制了中国地理分布图 (图1)。然后,使用迭代分层法[14]将数据集划分为训练集和测试集,该方法通过分别考虑每个标签,确保标签在各划分集中均匀分布。详细纳入标准见表1和“方法”部分。训练集和测试集的基线特征见表1。
图1. 各省份提供病原体数据的医院地理分布。颜色越接近绿色,代表数量越多。
表1.数据集的基线特征
在训练集和测试集中,测试对象的年龄中位数均为 2 岁。训练集的四分位距(IQR)为 3.17,测试集为 3.07。在性别方面,男性占多数,训练组中男性占 60%,测试组中占 59.7%,而女性分别占 39.3%和 39%,男性数量约为女性的 1.5 倍。在训练集和测试集中,非节假日进行测试的人数约为节假日的四倍。在训练集和测试集中,空气质量指数(AQI)的平均等级为良好,其他所有关键污染物的值均未超过国家规定的浓度限值。
图2展示了四个组别(IV、ADV、RSV和其他组)之间所有连续变量的差异箱型图。AQI 在每个类别中呈现出不同的中位数,“IV”的中位数为 55.04,“ADV”为 50.80,“RSV”为 34.11,“其他”为 51.98。四分位距(IQR)表示数据中间 50%的分布范围,“RSV”的变异最小,“IV”的变异最大。对于一氧化碳(CO),IQR 表明 CO 水平的分布更为接近,尤其是“RSV”组。NO2水平方面,“IV”的中位数为 37.31,且 IQR 最大,表明数值分布范围更广。“ADV”和“其他”的中位数相似,而“RSV”的中位数和 IQR 最低,表明其水平更为稳定且较低。O3水平总体较高,“ADV”和“其他”的中位数和 IQR 显著较高,表明数值范围更广,臭氧浓度可能出现更高峰值。对于PM10,“ TV”的中位数和 IQR 较高,表明与其他类别相比,其水平更具变异性且总体较高。PM2.5呈现出类似趋势,但总体中位数较低。SO2水平相对较低,“RSV”的中位数和 IQR 最低,表明SO2水平的变异性较小且持续较低。气温在各类别中的中位数范围较广,“RSV”的中位数最高,“IV”的中位数最低。“IV”的 IQR 表明气温分布差异较大。露点温度也有所不同,“RSV”的中位数和 IQR 再次最高,表明不仅中位数较高,而且变异性更大。以度数衡量的风向,“RSV”的 IQR 最小,表明该类别中风向的变异性较小。“IV”和“ADV”的中位数相似,而“其他”的分布略微更加广泛。风速在各类别中相对一致,中位数范围从 25.47 到 33.33,IQR 表明数值分布为中等范围。“年龄”类别显示,“IV”患者的年龄中位数为 25.47,“ADV”为 32.13,“RSV”为 33.33,“其他”为 26.09。IQR 显示“RSV”患者的年龄范围较窄,表明这些患者的年龄群体更为集中,而“ADV”的 IQR 较宽,表明年龄分布更广。值得注意的是,与其他因素相比,NO2在呼吸道病毒类别中表现出相对较大的差异,表明它可能对模型有影响。因此,我们对NO2进行了 Kruskal – Wallis H 检验,并计算了所有可能的两两比较(补充表 1)。IV、ADV、RSV 和其他之间的两两比较结果均显示出显著差异,p 值小于 0.05。这一发现与先前的研究[15]一致,表明NO2浓度的变化与呼吸道病毒感染风险相关。
图2. 呼吸道病毒类别间连续特征的比较分析。A 空气质量指数(AQI);B 一氧化碳(CO);C 二氧化氮(NO₂);D 臭氧(O₃);E PM10 ;F PM10;F PM2.5 ;G 二氧化硫(SO₂);H 气温;I 露点温度;J 风向;K 风速;L 年龄。中间的箱体从第一四分位数(Q1)延伸到第三四分位数(Q3),代表四分位距(IQR),包含了数据的中间 50%。箱体内的一条线标记了中位数(Q2),即数据集的中间值。线条从箱体边缘延伸到非离群值的最小值和最大值。这些线条被称为须线。落在须线之外的数据点被绘制为单独的点,并被视为离群值。它们通常被定义为低于 Q1 或高于 Q3 超过 1.5 倍 IQR 的点。须线的末端代表非离群值范围内的最小值和最大值。
二、分析模型中包含的特征
CRFC 模型中包含的 12 个选定连续变量呈现出如图 3 所示的相关关系。热图展示了变量对之间的相关系数,颜色越深表示正相关或负相关越强。相关系数的范围从 -1(完全负相关)到 1(完全正相关),0 表示无相关。相关热图展示了一个相关系数矩阵,揭示了不同环境变量之间关系的强度和方向。值得注意的是,PM10和 PM2.5 之间以及 AQI 和 PM2.5 之间存在非常强的正相关关系,表明这些颗粒物与整体空气质量密切相关。气温和露点温度之间的完全相关表明它们是衡量大气条件的高度相互依赖的指标。另一方面,风速与大多数变量的相关性极小,表明它在空气质量动态中的影响可能较小。此外,AQI 和风向之间的中度负相关可能意味着特定的风型可能与较差的空气质量有关,而 SO2 和 Age 之间的负相关也具有中等强度,表明可能存在负相关关系。
图3. 空气质量和气象变量的相关热图。颜色越接近光谱的红色端,表明正相关越强。同样,颜色越接近光谱的蓝色端,表明负相关越强。AQI:空气质量指数;CO:一氧化碳;NO2:二氧化氮;PM10:直径为 10 微米或更小的颗粒物;PM2.5 :直径为 2.5 微米或更小的细颗粒物;SO2 :二氧化硫。
为了证明多标签分类模型 CRFC 中的特征在预测呼吸道病毒感染方面的重要性和相关性,我们使用 SHAP 方法来解释我们的 CRFC 模型。选择平均绝对 SHAP 值来深入了解特征和病毒类型对呼吸道病毒预测的影响。图4 显示了 100 个测试样本中前 20 个特征的平均绝对 SHAP 值。这些特征按重要性降序排列,最具影响力的特征排在最前面。
年份、患者年龄、省份、二氧化氮和气温是影响 CRFC 模型结果的前五大因素。总体而言,年份、年龄和省份对预测腺病毒(ADV)感染的影响最为显著。与其他病毒相比,患者年龄对预测流感病毒(IV)感染易感性的影响最大,而其他因素对预测 IV 感染的影响相对较小。年份对 ADV 和呼吸道合胞病毒(RSV)的影响最为显著。
图4. 影响呼吸道病毒检测结果的多因素分析。x 轴表示对模型输出幅度的平均影响,y 轴表示用于构建模型的特征变量。不同颜色代表不同的病毒,每种病毒都映射到特征变量上,越突出的特征变量对模型的影响越大。在单个特征变量上,色带越长,贡献值越大。
基于之前 SHAP 分析得出的变量重要性见解,生成了 SHAP 图,以具体研究每个呼吸道病毒类别中特征的影响。如图5 所示,年龄是预测所有四类病毒的前五大最具影响力的因素之一。年龄和SO2也是预测 IV 的前五大重要因素。年龄和气温在 ADV 分类中表现出高度重要性。气温被确定为 RSV 发生的关键预测因素之一。值得注意的是,当综合考虑所有病原体类型时,年龄、气温NO2和SO2总体上是区分呼吸道病毒分类的特别关键的变量。这些 SHAP 分析结果有助于验证某些大气和宿主相关属性对特定病毒传播动态的实际影响。
图5. 呼吸道病毒检测结果的多因素分析。A 腺病毒(ADV);B 流感病毒(IV);C 呼吸道合胞病毒(RSV);D 其他。红色代表较高值,蓝色代表较低值。正值表示该特征会增加模型预测值,而负值表示该特征会降低模型预测值。
图6 展示了呼吸道病毒预测中关键变量的 SHAP 依赖图。图6A 显示,20 岁以上患者年龄是一个转折点,与流感感染概率增加相关。图6B 表明,风向大于 150 度时成为一个阈值,此时腺病毒检测可能性降低。与图6C、D 相反,20 岁以上患者对“其他”病毒的易感性显著降低。此外,当风向超过150°时,“其他”病毒的风险增加,这表明在该阈值以下可能存在一种与风向、风速相关的针对这些病原体的保护机制。
图6. 重要变量的 SHAP 图。A 第四组年龄的 SHAP 图;B 先进组风向的 SHAP 图;C 其他组年龄的 SHAP 图;D 其他组风向的 SHAP 图。蓝色圆点代表 X 轴上的较小值,垂直轴代表 SHAP 值,其中正值表示对某种病毒检测呈阳性有积极影响。红色圆点代表 X 轴上的较大值,垂直轴代表 SHAP 值,其中负值表示对某种病毒检测呈阳性有消极影响。
SHAP 不仅可用于解释模型的整体预测性能,还可根据需要对特定人群进行预测。特定人群的 SHAP 解释图如图2 所示。输入人群的性别、年龄和省份等信息后,我们可以生成 SHAP 力场图,详情见图7。SHAP 力场图展示了模型 CRFC 内的个体水平。每个模型做出的决策以及每个属性对决策的贡献程度在 SHAP 力场图中详细呈现。红色色块代表感染风险增加,蓝色代表感染风险降低。色带越长,贡献值越大。图上的文本代表为人群输入的人口统计信息。每个变量的影响与其条形长度成正比。在给定的“其他”组中,变量 wind_speed、NO2、wind_direction 和PM2.5可以增强模型输出,而在给定的“腺病毒”组中,wind_speed、NO2 和 SO2可以降低预测值。
图7. 用于解释个体呼吸道病毒检测结果的 SHAP 注意力图。红色色块代表感染风险增加,蓝色代表感染风险降低。色带越长,贡献值越大。图上的文本代表为人群输入的人口统计信息。
三、模型性能
为了提高整体分类性能,采用了以随机森林模型为基础学习器的分类器链。分类器链将先前的病毒标签预测结果作为输入特征,每个随机森林预测每个样本是否与每个病毒标签相关联。
在我们使用这种方法实现 CRFC 的过程中,模型 CRFC 运行了 50 次以评估一致性。令人鼓舞的是,CRFC 实现了 0.76 的平均总体准确率,以及 0.75 的平均宏敏感度、0.77 的平均宏精确度、0.76 的平均宏 f1 分数和 0.90 的平均 AUC。
对于一次运行(总体准确率为 0.76,宏召回率为 0.75,宏精确度为 0.77,宏 f1 分数为 0.76,宏 AUC 分数为 0.90),每种病毒的详细性能指标详见表2、表3 和图8。
表2.不同呼吸道病毒检测结果
表3.呼吸道病毒类别的性能评估指标
图8.跨呼吸道病毒类别的分类器性能比较分析。A 分类器链的ROC曲线;B 分类器链的精确率 - 召回率曲线。
流感病毒(IV)、腺病毒(ADV)、呼吸道合胞病毒(RSV)和其他病毒的真阳性数分别为 235、1527、596 和 546。流感病毒(IV)、腺病毒(ADV)、呼吸道合胞病毒(RSV)和其他病毒的真阴性数分别为 3508、1557、2780 和 2723。流感病毒(IV)、腺病毒(ADV)、呼吸道合胞病毒(RSV)和其他病毒的假阳性数分别为 46、454、98 和 331。流感病毒(IV)、腺病毒(ADV)、呼吸道合胞病毒(RSV)和其他病毒的假阴性数分别为 44、294、358 和 232。
至于性能评估指标,流感病毒(IV)的准确率为 0.98,这表明 98% 的预测是正确的。腺病毒(ADV)的准确率为 0.80。呼吸道合胞病毒(RSV)的准确率为 0.88,其他病毒的准确率为 0.85。流感病毒(IV)的灵敏度为 0.84,这意味着它能正确识别 84% 的阳性病例。腺病毒(ADV)的灵敏度也是 0.84,呼吸道合胞病毒(RSV)为 0.62,其他病毒的灵敏度为 0.7。流感病毒(IV)的特异度高达 0.99,这表明它能正确识别 99% 的阴性病例。腺病毒(ADV)的特异度为 0.77,呼吸道合胞病毒(RSV)为 0.97,其他病毒为 0.89。流感病毒(IV)的精确率为 0.84,腺病毒(ADV)为 0.77。呼吸道合胞病毒(RSV)为 0.86,其他病毒为 0.62。流感病毒(IV)的 F1 分数为 0.84。腺病毒(ADV)略低,为 0.80,呼吸道合胞病毒(RSV)为 0.72,其他病毒为 0.66。AUC 是在各种阈值设置下对分类问题的性能度量。它表示可分离的程度或度量。AUC 越高,模型区分两类的能力就越好。流感病毒(IV)的 AUC 分数为 0.99。腺病毒(ADV)的分数为 0.9,呼吸道合胞病毒(RSV)为 0.87,其他病毒为 0.85(图8A)。
图8B 展示了分类器链的 ROC 曲线和精确率 - 召回率曲线。类别包括流感病毒(IV)、腺病毒(ADV)、呼吸道合胞病毒(RSV)和其他。精确率 - 召回率曲线显示了以下平均精度(AP)值:流感病毒(IV)类别 = 0.92;腺病毒(ADV)类别 = 0.88;呼吸道合胞病毒(RSV)类别 = 0.80;其他类别 = 0.69。
这些曲线是评估分类器性能的重要工具,它们以可视化的方式展示了在选择不同分类阈值时所涉及的权衡。较高的 AUC/AP 值表示分类器性能更优。
四、CRFC 与其他预测模型的性能比较
为了全面评估我们提出的方法——基于随机森林的分类器链(Classifier Chain with Random Forest)的有效性,我们将其与其他预测模型进行了广泛比较,这些模型包括决策树、K 近邻(KNN)、逻辑回归、神经网络和支持向量机(SVM),并同时采用了二元关联(Binary Relevance)[16]和分类器链方法。表 4 总结的结果表明,基于随机森林的分类器链在关键指标上始终优于其他模型。具体而言,它实现了最高的准确率(0.76)和宏召回率(0.75),这凸显了其在预测呼吸道病原体类别方面的卓越性能和稳健性。这些发现表明,与多种替代模型相比,所提出的方法是有效的。
表4.CRCF 模型中不同分类器的性能比较(二元关联)
材料与方法
一、数据来源
病原体检测信息收集自广州金域医学检验集团股份有限公司,该公司是中国独立医学实验室(ICL)行业的先驱和领导者之一。数据于2016年至2021年在全国范围内收集,涵盖了一系列呼吸道病原体,包括人博卡病毒(HBoV)、流感病毒(IV)、腺病毒(ADV)、呼吸道合胞病毒(RSV)、鼻病毒(RhV)、副流感病毒(PIV)、人偏肺病毒(hMPV)和人冠状病毒(HCoV)。在这些病原体中,HBoV、RhV、PIV、hMPV和HCoV被归类为“其他”组。空气质量数据收集自国家城市空气质量实时发布平台(https://air.cnemc.cn:18007)的一个公共数据集,该数据集涵盖了2016年至2021年全国范围内的每日观测数据。空气质量数据包括空气质量指数(AQI)、臭氧浓度(O3)、二氧化氮(NO2)、一氧化碳(CO)、PM10、PM2.5 、SO2。气象数据收集自美国国家环境信息中心(https://www.ncei.noaa.gov/),包括气温、露点温度、风向和风速。根据医院地址的行政区划评估参与者的暴露情况,即通过经纬度将区域与环境数据进行匹配,然后利用每个参与者过去7天的平均环境数据进行进一步研究。
研究数据包括654,830人的病原体检测信息、8,059,519条气象数据记录和3,319,259条空气质量数据记录。我们的数据涵盖中国31个地区,包括安徽省、上海市、云南省、内蒙古自治区、北京市、吉林省、四川省、天津市、宁夏回族自治区、山东省、山西省、广东省、广西壮族自治区、新疆维吾尔自治区、江苏省、江西省、河北省、河南省、浙江省、海南省、湖北省、湖南省、甘肃省、福建省、西藏自治区、贵州省、辽宁省、重庆市、陕西省、青海省和黑龙江省。
通过将这些数据与检测病例的医院地址和检测日期相关联,我们旨在对在获得的空气质量和气象条件下的不同呼吸道病毒类别进行分类。经过数据整合和清理,我们最终获得了19,161条检测结果为阳性的记录,其中包括检测人员信息、病原体检测结果、气象数据和空气质量数据。
选择这些数据来源是基于它们广泛的时间和地理覆盖范围,能够获取具有代表性的样本集,以便更好地了解病毒的传播和感染特征。我们遵循数据合法性和隐私保护原则,以确保所使用数据的安全性和可靠性。
二、研究设计
我们采用多标签集成学习框架构建了一个全国性的呼吸道病毒感染风险预测模型,能够实时、精确地评估病毒传播趋势和潜在风险。该模型使用一种基于随机森林的多标签链式集成学习算法(称为 CRFC)对每一类呼吸道病毒进行二分类。最终,将四个特定类别的分类结果整合,以详细获得每个病例的最终预测结果。此外,通过纳入空气质量和气象数据,我们旨在建立一个更准确、全面的模型,从而为临床决策提供必要的支持。使用带有曲线下分数的ROC曲线和分类器链的精确率-召回率(PR)曲线来展示不同类别的呼吸道病毒的性能指标。我们所有的数据清理和统计工作均使用 Python 3.8.19 版本完成。所使用的 Python 库包括 "sklearn"、"imblearn"、"skmultilearn"、"shap"。模型构建的流程图如图9 所示。
图9.模型构建流程图
三、模型构建
基于研究设计,我们构建了一个以随机森林为基础模型的分类器链框架,利用空气污染物和环境因素来预测影响患者的呼吸道传染病(RTI)病毒的具体类型。为了生成训练数据集,我们随机抽取了80%的病例,而其余 20% 形成了一个平衡的测试数据集。为了减轻抽样偏差,我们将工作流程重复了 50 次。值得注意的是,我们使用 Python 包 "iterative_train_test_split[28]" 来分割数据,以确保训练集和测试集的样本分布与整个数据集的样本分布相似。在我们的模型中,除了空气污染物和环境因素外,我们还将年龄、性别、年份、月份、周、日、星期几、季节和节假日作为协变量纳入其中。
四、模型评估
所得模型预测了训练数据集中影响患者的呼吸道病毒类型,我们使用各种指标(包括总体准确率、宏观召回率、宏观精确率、宏观 f1 分数和宏观 AUC 分数)对测试数据集进行了性能评估。准确率是正确预测的观测值与总观测值的比率。它衡量了模型的整体正确性。公式如下:
这里,TP表示真阳性,即模型能够正确预测为阳性的样本数量。TN (真阴性)是模型能够正确预测为阴性的样本数量。召回率(灵敏度)衡量了实际阳性样本中被正确识别的比例。召回率的值使用以下公式计算:
在这个公式中,TP的含义与上述相同。FNc 是模型对类别c的假阴性数量,即实际为阳性但被预测为阴性的实例。在遗漏阳性实例的代价很高的情况下,召回率尤为重要。精确率是正确预测的阳性观测值与总预测阳性值的比率。它是模型不将阴性实例标记为阳性的能力,可以表示为:
此外,TP 的含义与上述相同。FP(假阳性)指的是模型错误地将阴性样本预测为阳性样本的实例。f1 分数是精确率和召回率的调和平均值,提供了一个平衡这两个指标的单一度量。当类别分布不均匀时,它特别有用。公式如下:
精确率c是类别 c 的精确率,即真阳性与总预测阳性的比率。召回率 c是类别 c 的召回率,即真阳性与实际阳性的比率。然后,使用训练好的模型对测试数据集中患者的状态进行预测,并再次使用相同的指标对其性能进行评估。
我们使用ROC曲线和精确率-召回率(PR)曲线来说明模型的性能。这些曲线是评估分类器性能的重要工具,能直观展示在选择不同分类阈值时所涉及的权衡。ROC 曲线和AUC分数展示了每个类别的真阳性率和假阳性率之间的权衡。PR 曲线和平均精确率(AP)分数展示了每个类别的精确率和召回率之间的权衡。AUC/AP 分数越高,表明分类器性能越好。在我们采用这种方法实现条件随机场分类器(CRFC)时,模型 CRFC 运行了 50 次以评估一致性。同时,我们还与其他预测模型进行了广泛比较,这些模型包括决策树、K 近邻(KNN)、逻辑回归、神经网络和支持向量机(SVM),并使用了二元关联法[16]和分类器链法。
五、可解释的机器学习模型
在本研究中,我们采用了可解释的 SHAP[29]机器学习框架来探究空气污染和气象因素对呼吸道病毒的影响机制。
首先,基于合作博弈论的概念,我们计算了多标签分类器链中参数的贡献,以确定它们的重要性,从而识别出对呼吸道病毒检测结果有显著影响的空气污染物和气象因素。
此外,我们使用了一种加性特征归因方法,将模型的预测解释为二元变量的线性函数,并进行概率转换。通过以概率值的形式呈现不同参数之间的交互作用及其对病毒风险的综合影响,我们旨在揭示各种因素对结果的全面影响。除了展示各种因素对模型的总体影响外,SHAP 还用于说明对特定人群的影响。
参考文献
科学意义
该研究通过整合全国呼吸道病毒检测数据与环境因素,构建了基于链式随机森林分类器(CRFC)的机器学习模型,揭示了气候变化与呼吸道病毒感染风险的复杂关系。研究创新地采用可解释性机器学习(SHAP框架),解析了NO₂浓度、气温、年龄等关键驱动因子,为病毒传播机制的研究提供了量化依据。同时,开发的多标签分类模型突破了传统单一病毒预测的局限,兼顾高精度与可解释性,推动了多病原体感染联合预警的技术发展。此外,模型具备时空扩展性,能够评估不同地区和人群的感染风险,在应对季节性流行病与新发传染病中具有显著潜力。
杨子峰,广州医科大学广州呼吸健康研究院副院长,广州医科大学呼吸疾病全国重点实验室副主任,广州国家实验室诊断技术创新研究与转化中心主任,澳门科技大学“大规模呼吸疾病流行病预测预警与医学大数据人工智能应用实验室”联合主任。世界卫生组织H7N9、H5N1风险评估组专家/全日本流感学会会员,第十六届广州市人大代表,国家药监局重点实验室大湾区生物药监管科学与转化研究中心副主任,中华中医药学会科学技术奖中青年创新人才奖、广州高层次领军人才。牵头构建了呼吸道病原临床监测网,并在新冠期间开展新冠病毒的监测与疫情预测预警工作,创建了基于多元异构数据精准预测模型的传染病监测与预测预警平台,牵头成立基于时空分布模型及舆情语言大模型的大规模流行病的预报和预测系统及应用示范研究协作组,推动大规模流行病的时空分布与多元数据预测模型研究。承担科研项目逾20项;发表SCI研究论文70篇;3篇论文入选ESI高被引。曾获国家科学技术进步奖创新团队奖(核心成员)、广东省科技进步特等及一等奖(核心成员)、全国创新争先奖牌(核心成员)、中国专利优秀奖和药明康德生命化学奖学者奖等多项科研奖励。