|
Nature子刊解析为什么医学AI模型频繁发表在各大顶刊,但是在临床的应用却有限?关键在于缺乏可靠的外部验证!在医学AI领域,基于数字病理的肺癌诊断模型临床应用受限,关键原因在于缺乏可靠的外部验证。本文系统检索2010年至2024年相关文献,对22项外部验证研究展开分析,聚焦模型任务、性能及验证方法学,旨在为提升模型临床适用性提供依据。
https://doi.org/10.1038/s41698-025-00940-7
研究发现,模型多聚焦非小细胞肺癌亚型分类,平均AUC达0.746至0.999,但普遍存在数据集小、非代表性及回顾性设计等问题,86%研究在参与者选择领域有高偏倚风险,且仅1项前瞻性验证,技术多样性和临床指标报告也不足。
此综述为医学AI研究指明方向:需采用多中心、前瞻性设计,纳入多样化数据集,强化技术差异考量,规范临床指标报告。
提出的验证建议有助于推动AI模型从研究向临床转化,助力解决肺癌早诊及病理人力短缺等问题。
一、引言
数字病理学是指在数字环境中对病理学相关数据进行分析、管理与共享1。
数字病理学的出现推动了众多人工智能(AI)模型的发展,这些模型应用于数字病理图像以辅助癌症诊断,且此类AI工具的开发速度逐年加快。
在英国,肺癌是癌症相关死亡的主要原因,每年约导致35,000人死亡2,这种高死亡率在很大程度上源于晚期诊断。值得注意的是,肺癌1期确诊患者的五年生存率为65%,而4期确诊患者的五年生存率则大幅降至5%3。
英国及全球其他高收入国家实施的国家针对性肺癌筛查计划可能改善患者预后4,但筛查增加可能导致转诊至病理服务的病例增多,给本已负担沉重的劳动力带来巨大压力5,而AI有可能解决这些劳动力瓶颈问题6。
将AI模型应用于数字化全玻片图像(WSIs)正革新癌症诊断。
病理学家面临工作量不断增加以及分析日益复杂和庞大数据集的压力,AI模型通过自动化某些任务,可在临床工作流程中辅助病理学家,并提供可扩展的诊断支持4。
重要的是,AI能够快速分析海量数据集,并可能识别出人眼不易察觉的模式7,这一能力在肺癌诊断中尤为重要,因为早期诊断可显著改善患者预后8。
AI领域的一个新兴趋势是基础模型的开发,这些大规模模型在海量数据集上训练,可作为各种下游任务的基础9。值得关注的是,已有数种基于组织病理学的AI模型获得FDA批准,包括用于辅助前列腺癌诊断的Paige Prostate10。
尽管具有潜力,但迄今为止癌症诊断AI病理工具的临床应用极为有限,这主要归因于模型在部署前缺乏可靠的外部验证,以及人们对模型在真实临床环境中通用性的担忧11。
外部验证指使用与训练和测试模型数据不同来源的数据评估模型性能11,而使用多样化的真实世界数据集验证这些工具是其广泛临床应用的主要挑战11。
虽然AI模型在内部数据集上可能表现良好,但在反映临床实践中变异性的外部数据集上,其性能可能大幅下降。
可靠的外部验证对于评估模型在不同患者群体中的通用性至关重要,是AI模型获得信任并融入临床工作流程前的关键步骤12。
二、调研结果2-1:AI模型与任务
18个模型用于辅助非小细胞肺癌(NSCLC)诊断,主要聚焦于肺腺癌(LUAD)和/或肺鳞癌(LUSC)。3个模型除NSCLC外还可检测小细胞肺癌(SCLC)。
模型在诊断路径中执行多种任务,最常见的是亚型分类(n=16)17-32。13个亚型分类模型区分LUAD与LUSC,3个模型区分LUAD、LUSC和SCLC。
AI模型执行的其他任务包括恶性与非恶性组织分类(n=14)17,19-22,26,29-36、肿瘤生长模式分类(n=2)33,36、生物标志物识别(n=2)16,19、肿瘤细胞丰度预测(n=1)35和细胞类型分类(n=1)37。
研究确定了14个多任务模型16,17,19-22,26,29-36,其中大多数(n=10)结合了亚型分类和恶性与非恶性组织分类17,19-22,26,29-32。
关于模型在诊断路径中的预期作用、预期临床场景及预期部署国家的信息有限。3位作者提供了模型预期临床场景的详细信息,如部署国家及目标人群是否为无症状或有症状者18,30,35。
1位作者报告其模型可在临床实践中作为分诊工具16,而12项研究的作者称其AI模型旨在辅助临床医生,但未提供进一步细节17-23,30,32,33,35-37。1位作者指出其研究仅用于研究目的,模型并非专门作为临床工具开发26。
2-2:研究类型
22项研究中16项为回顾性研究16,20-26,28-34,37,其中回顾性病例对照研究是最常用的研究设计(n=10)16,20-22,26,29-31,33,34。
研究识别出1项前瞻性病例对照研究36,但未发现任何已完成的前瞻性队列研究或随机对照试验。
5项研究中数据收集是回顾性还是前瞻性尚不明确17-19,27,35。
2-3:数据集
用于外部验证的组织病理学数据集在规模上存在异质性,研究使用的样本少至20个,多至2115个(见表1)。
约一半研究(n=9)使用的数据集包含100至500张图像17,19,20,24,27,28,30,35,37。与数据集规模类似,使用的数据集数量和来源也差异显著。
7项研究为单中心研究17,19,20,23,24,27,37,6项研究使用来自多个中心的图像,中心数量从2个到4个不等18,21,22,29,34,35。
尽管大多数研究使用来自二级 care 医院和三级中心的受限数据集16-20,23,24,27,28,35-37,但3项研究结合使用了公共数据集和受限数据集22,29,34。
2-4:数据集中的技术多样性
超过一半的研究(n=12)采用技术手段解决因各中心设备或组织处理协议不同可能导致的图像差异。
9项研究报告使用以下一种或多种方法来增加数据集中的技术多样性:使用不同全玻片扫描仪创建的全玻片图像、各种放大倍数、使用不同方法保存的玻片(如福尔马林固定石蜡包埋或冷冻)、不同组织样本(如活检或切除样本)、用各种染色剂制备的玻片以及包含 artefacts(如气泡和划痕)的玻片17,18,20,22,24,25,33-35。
在13项不清楚是否使用这些方法的研究中,2项研究通过旋转、翻转以及改变亮度、饱和度、对比度和色调等数据增强技术模拟技术多样性21,37。
相反,3项研究使用染色标准化来最小化图像之间的变异性18,23,27。
2-5:诊断性能和使用的评估指标
22项研究中有17项报告了受试者工作特征曲线下面积(AUC)17-20,22-32,34,使其成为总体上最常用的评估指标。
值得注意的是,只有4项研究报告了敏感性和/或特异性16,19,20,29。用于评估模型的其他指标包括准确性、F1分数、精确率、召回率和精确率 - 召回率曲线下面积(AUPRC)。
性能指标根据数据集、组织类型和/或保存方法、肺癌亚型或分析单位(补丁级别或玻片级别)进行报告。重要的是,由于AI任务、使用的评估指标、分析单位和报告存在显著异质性,无法进行荟萃分析。
仅能对肺癌亚型分类模型的性能指标进行比较,因为这是最常见、定义最明确且报告一致性最高的任务(表2)。肺癌亚型分类模型表现优异,平均AUC值范围从0.746(Mukashyaka等人,2024)到0.999(Kanavati等人,2021)22,25。
值得注意的是,在评估肺癌亚型分类模型的16项研究中,8项提供了ROC曲线20,22-24,27-30,8项提供了变异性度量20-22,25,27,29,30,32。
三、算法设计与验证建议3-1:定义临床场景与模型角色- 临床场景:明确目标国家、人群 demographics(如年龄、性别、种族)、癌症分期及亚型(如非小细胞肺癌中的腺癌与鳞癌)。
- 模型角色:界定其在诊断路径中的定位(如辅助临床医生、替代诊断或分诊工具)。
3-2:研究设计规范- 数据独立性:验证数据需来自与训练数据不同的来源,避免数据集重叠。
- 研究类型优化:
- 病例对照研究后需跟进前瞻性队列研究、实施性研究或随机对照试验(RCT),以规避光谱偏倚。
- 回顾性研究尽可能使用受限数据集(非公开数据),确保真实世界验证的可靠性。
- 多中心与地理多样性:数据应来自不同中心与地区,覆盖人群特征、操作流程及设备差异。至少需在目标临床场景中完成验证,并在部署前进行本地验证以评估模型适配性。
- 样本量计算:
- 预先计算可接受采样误差的最小样本量,参考现有方法学标准51,52。
- 样本量需匹配临床终点(如早期癌症检出率),涵盖临床实践中的疾病变异(包括罕见病理类型)。
- 若可能,数据集需满足亚组分析需求(如按年龄、种族、癌症分期分层),可通过数据增强(如生成对抗网络)扩充罕见癌症样本。
- 金标准设定:以多位高年资病理学家的共识作为 ground truth,避免依赖单一算法。
3-3:报告规范- 明确研究设计类型(前瞻性/回顾性、病例对照/队列研究/RCT)。
- 报告外部验证的样本量、数据来源中心数量及 ground truth 确立方式(如是否基于人工标注)。
3-4:人群与参与者选择- 亚组分布:数据集中各亚组(如年龄、性别、癌症分期)的比例需与目标人群一致(例如英国肺癌患者中男女比例各约50%53)。
- 报告要求:
- 明确目标人群特征(如有症状/无症状个体)。
- 提供最终分析的参与者数量、人口统计学信息(年龄、性别、种族、社会经济状态)及样本采集方式(随机/连续)。
- 列出各癌症分期与亚型的样本量,若缺失特定亚组(如晚期病例、少数族裔),需说明原因。
3-5:图像选择与技术多样性- 技术变异覆盖:数据集需反映真实场景中的技术差异,可通过以下方式实现:
- 不同样本制备流程(染色技术、保存方法如FFPE或冷冻)。
- 多品牌全玻片扫描仪、不同放大倍数、含 artefacts(气泡、折叠)的样本。
- 组织类型差异(活检/切除样本)、数据增强技术或生成对抗网络。
- 数据时效性:优先使用当代数据集,若采用历史数据需评估数据集漂移风险。
- 报告要求:
- 各中心提供的样本量、单参与者样本数及扫描仪型号。
- 数据增强方法或生成模型的使用细节,公开数据集需说明验证子集及样本采集年份。
3-6:诊断性能与指标- 阈值设定:根据模型临床任务(如筛查或确诊)权衡敏感性与特异性,确定结果报告阈值。
- 指标报告:
- 至少提供混淆矩阵(真阳性、真阴性、假阳性、假阴性)。
- 临床相关指标包括敏感性、特异性、AUROC、正负预测值及阈值依据。
- 报告全玻片图像级性能、预设亚组(如种族、分期)的结果及变异度量(如置信区间)。
|
|