多客科技 发表于 2025-6-22 09:22

AI-RANO共识解读 | AI革新神经肿瘤疗效评估:临床落地挑战与多中心协作机遇

作者:微信文章

本期分享发表在Lancet Oncol的AI-RANO共识,“Artificial Intelligence for Response Assessment in Neuro Oncology (AI-RANO), part 1: review of current advancements”,探讨神经肿瘤领域AI模型临床落地挑战与多中心协作机遇。

摘要

人工智能(AI)技术在神经肿瘤学诊断、预后评估及治疗优化领域的开发、应用与性能评测正迎来迅速发展。本策略评述对该领域迄今成果进行系统性梳理与批判性评估,重点聚焦以下方向:关键基因组标志物的诊断性AI模型、治疗前后疗效反应的预测性AI模型,以及真性肿瘤进展与治疗相关改变的鉴别模型(基于当前神经肿瘤临床诊疗标准存在显著挑战)。此外,本文探讨了具有前景的发展方向,包括运用AI实现神经肿瘤自动化疗效评估的创新路径。
引言

肿瘤影像人工智能(AI)技术在过去十年间持续演进,其新型计算方法致力于开发生物影像标志物,并通过量化图像的宏观与微观特征,关联组织的生物学特性及临床预后。此类影像标志物可有效捕获肿瘤及其微环境(即肿瘤生态位,tumour habitat)的固有异质性,从而实现对疾病表型的精准表征。该策略不仅适用于传统及先进MRI技术,近期更扩展至代谢成像领域,包括磁共振波谱成像与PET技术。

为推动基于AI的生物标志物在中枢神经系统肿瘤临床试验中的深度开发与转化应用,神经肿瘤疗效评估工作组(RANO)——该国际协作组织致力于制定脑肿瘤临床试验疗效评估新标准——特别成立AI-RANO子工作组。本工作组系统评述了AI生物标志物在治疗过程中潜在作用的循证依据,并进一步提出标准化验证框架建议,重点规范新型策略的可重复性、再现性、可信度及普适性验证流程。相关规范建议详见同期发布的策略评述。
人工智能方法论综述

尽管人工智能相关方法的核心理念在概念层面清晰明了,但实际应用仍存挑战。基于人工智能的生物标志物能否成功开发,关键取决于高质量数据的规模化获取及恰当的数学建模架构。该流程涵盖以下核心环节:影像采集、影像前处理与数据标准化、感兴趣区(ROI)分割、ROI影像特征提取以及建模数据挖掘五大环节,最终构建预测临床结局的分类模型。自影像中可提取的定量或放射组学特征包括形态特征、纹理参数、小波变换特征及形变特征。

此外,定性或语义影像特征(如VASARI,Visually Accesable Rembrandt Images features)可进一步增强人工智能分析效能。
🌟 关键词解释


四种影像组学特征(radiomic features)——形状(shape)、纹理(texture)、小波(wavelets)、形变(deformation)——是从医学图像中提取的关键信息,每一种都揭示了肿瘤或组织的不同生物学特性:

1. 形状特征(Shape features)
用于描述病灶(如肿瘤)的几何结构,通常基于三维图像。这些特征包括:

体积(volume)

表面积(surface area)

球形度(sphericity):越接近1,表示越接近球形

扁平度、紧致度等
形状特征能帮助识别肿瘤类型或判断良恶性。

2. 纹理特征(Texture features)
反映图像灰度分布的空间规律,用来衡量肿瘤的异质性。常见方法包括:

灰度共生矩阵(GLCM)

灰度游程长度矩阵(GLRLM)

灰度区域长度矩阵(GLSZM)等
比如肿瘤内部越“粗糙”或越“杂乱”,其纹理特征值也越复杂,可能提示高异质性。

3. 小波特征(Wavelet features)
通过对图像进行小波变换,提取不同空间频率下的特征。这种方法有助于发现图像中多尺度、细粒度的结构,是增强模型预测能力的重要手段。

4. 形变特征(Deformation features)
主要用于动态或纵向研究中,比如治疗前后肿瘤的变化。这类特征通过图像配准计算而来,反映组织的移动、拉伸或压缩等形态变化,可用于评估放疗或化疗的疗效。


Visually Accessible Rembrandt Images (VASARI) Features
这是一个针对胶质瘤(尤其是 GBM)MRI图像的标准化语义特征集,由放射学家制定,用于描述肿瘤在影像上的表现。该系统包含了 25 个特征,每一个特征都有其特定的名称、编号以及详细描述。例如 VASARI 中的特征可能包括:肿瘤的增强边缘类型、周围水肿程度、是否侵犯脑室系统、中线结构是否偏移等。

此外,影像学特征可与人口统计学指标、临床参数或基因组学数据等非影像变量进行多模态整合,从而显著提升预测价值(Dice相似系数)。本策略评述的术语表可为读者提供关键概念的扩展阐释(附录p2)。

成功提取影像特征后,可通过监督学习等机器学习算法进行整合分析:该类算法首先在标注标签或结局的数据集上进行训练以识别特征规律,进而对未知样本的对应标签进行预测。

深度学习技术的近期突破极大推进了大规模医学影像分析的发展。该技术在计算机视觉领域已取得突破性性能表现——当可用训练样本数量充足时,其在诸多医学影像分析方向展示出卓越效能。以卷积神经网络(CNN,convolutional neural networks)为例:这类深度学习模型整合卷积层、池化层及全连接层结构,能够同步学习输入数据的高级表征。由此,深度学习可实现特征提取与分类的协同执行,而这两个步骤在传统机器学习工作流程中通常为区分步骤。日益增多的研究表明,采用卷积神经网络模型进行医学影像分析可获得更优结果。

自监督表征学习(self-supervised representation learning)的突破性进展有望显著降低对标注数据的依赖——此类标注在医学数据获取中往往耗时而艰难。自监督学习的核心在于使深度学习算法具备从未标注医学数据中提取稳健且有意义表征的能力。基于这些学习所得表征,仅需相对少量标注数据点即可训练出有效的监督预测模型。例如:Transformer架构通过自注意力(self-attention)机制学习输入特征,最初设计用于机器翻译;而其医学影像处理版本(视觉Transformer,ViT)已展现当前最先进性能(SOTA),在包括脑肿瘤分割在内的多项影像任务中显著超越传统卷积神经网络。
文献综述

诊断标志物


当代脑肿瘤诊断整合影像学、组织病理学、分级评估及分子特征分析。本文重点论述胶质瘤(成人最常见恶性脑肿瘤)的影像人工智能应用,并推演这些方法在其它中枢神经系统肿瘤的拓展前景(附录p3)。

基于术前MRI的AI模型(示例图像见附录p6)已实现按组织学标准区分低/高级别胶质瘤,多项研究显示其准确率超90%。
尽管传统分级体系具备较好鉴别效力,最近对胶质瘤的分子重新分类强调了一些关键的预后特征,包括异柠檬酸脱氢酶(IDH)突变、1p/19q共缺失,以及O6-甲基鸟嘌呤-DNA甲基转移酶(MGMT)甲基化状态。该变革正推动AI预测算法重心从组织学分级转向基因组学驱动诊断的肿瘤亚型。本文综述胶质瘤分子标志物影像学生物标志物研究的当前进展。



IDH突变状态——IDH1/2突变常见于星形细胞瘤与少突胶质细胞瘤,其存在与患者生存期改善显著相关,现已成为临床诊断及患者管理的核心指标。基于多序列术前MRI的AI模型可实现对IDH突变状态的诊断,预测曲线下面积(AUC)值达0.8–0.9。一项针对225例胶质瘤的多中心回顾性研究表明:结合年龄、性别、卡氏功能状态评分等临床参数时,基于结构MRI的AI模型预测IDH突变状态的验证AUC可达0.97。另一项研究中,基于不同机器学习策略的分类准确率达83%-85%,该模型成功泛化至多样化的独立验证集;当采用深度学习处理同类大规模数据集时,测试准确率更可提升至89%。整合扩散加权成像(DWI)的表观扩散系数图与灌注成像的相对脑血容量图,可进一步提升模型性能(AUC≈0.90)。

由于IDH野生型肿瘤多呈对比剂强化征象且高发于55岁以上人群,模型解读时需审慎考量——仅纳入对比剂强化特征与年龄因素的简单线性回归模型,其准确率即可达70%–80%(具体值因数据集而异)。

除MRI外,氨基酸PET的AI应用价值正在探索中。部分基于PET的分析显示,其预测IDH基因型的准确率与MRI-AI模型相当。在一项采用放射性标记氨基酸O-(2-氟乙基)-L-酪氨酸(FET)的PET研究中,研究者通过线性回归算法将84例胶质瘤患者的静态/动态FET-PET参数与39项纹理特征结合,实现了93%的IDH状态分类准确率。

1p/19q联合缺失——除IDH突变外,1号染色体短臂和19号长臂共缺失(1p19q)是区分少突胶质细胞瘤与星形细胞瘤的核心分子标志,兼具预后及治疗决策价值。虽然增强后T1加权成像特征对判别IDH突变状态最为关键,但T2信号强度对确认1p/19q联合缺失更具意义:在IDH突变型胶质瘤中,1p19q联合缺失肿瘤较非缺失肿瘤呈现更显著的信号异质性及更低边缘锐度。需强调,尽管深度学习在区分1p/19q联合缺失与非缺失肿瘤方面展现潜力,相关研究多采用癌症影像档案馆公共数据库样本,其纳入标准未限定IDH突变型病灶——混合IDH野生型肿瘤(1p/19q非缺失类)的做法引入生物学特性迥异的胶质瘤亚型(此类亚型分类难度较低),可能夸大模型准确性。亟需在更广泛数据集进行验证,并探索整合弥散加权成像(DWI)及灌注序列特征(此类特征在其他影像基因组学任务中已被证实可提升模型性能)。

MGMT启动子甲基化——MGMT启动子甲基化是胶质瘤患者对替莫唑胺化疗反应的预后生物标志物。建立MGMT甲基化状态的影像学表征对于患者精准分层治疗至关重要。小样本研究表明,术前胶质母细胞瘤影像的纹理分析预测MGMT状态的AUC达0.82。尽管T2加权图像特征对分类器判别贡献显著,而融入肿瘤位置、坏死/囊变、中线侵犯、强化程度及瘤周水肿等定性临床影像特征可进一步提升性能。当探究基于放射性标记氨基酸(11C-甲基-L-甲硫氨酸,MET)PET的人工智能模型识别MGMT启动子甲基化状态时,发现甲基化组患者直方图偏度与峰度特征值显著升高(但未建立AI模型)。尽管深度学习模型曾报告83–95%的准确率,此类结果均未经验证。

2021年北美放射学会(RSNA)、美国神经放射学会(ASNR)联合医学影像计算与计算机辅助介入协会(MICCAI)发起的"脑肿瘤计算分割挑战赛",采用超2000例胶质母细胞瘤患者的多中心数据区分MGMT甲基化与非甲基化肿瘤。虽然逾1500支团队参赛,公开挑战阶段最佳准确率仍未超过62%——该劣效性或源于各机构MGMT甲基化状态判定方法与阈值水平的异质性。基于相同数据集,经优化的AI模型在MGMT甲基化状态分类中实现了96.84%准确率、96.08%敏感性及97.44%特异性。
预后标志物


基于人工智能的生存期预测研究主要集中于胶质瘤领域。多数模型采用分类方法(而非回归分析),其构建流程为:首先依据特定生存阈值(如胶质母细胞瘤的12个月生存期)将患者划分为短期或长期生存组,进而训练模型识别最能区分两组的影像学特征。此类模型的性能精度通常低于当前诊断分类任务的报告值——若仅采用结构成像技术,其准确率普遍维持在70–80%区间。当整合临床因素(如治疗方式、年龄、KPS评分)、分子变量(如IDH突变状态)或弥散加权与灌注加权成像特征后,人工智能预后预测效能显著提升。
尽管基于结构影像的AI模型对胶质母细胞瘤患者生存期预测改进有限,但采用端到端(end-to-end)生存预测模型提取结构图像特征展现出巨大潜力:基于3年总生存期的分类准确率最高达94%。除MRI外,基于氨基酸PET(FET与MET)的人工智能模型亦用于胶质瘤生存分层,其AUC达0.85–0.90。综合来看,这些研究证实整合代谢肿瘤体积、纹理特征、临床数据及组织分子标志物的联合策略可有效提升预后判断准确性。
疗效标志物


神经肿瘤学面临的核心挑战——尤其是高级别胶质瘤诊疗领域——在于难以准确判定影像学显示的病灶为真性肿瘤复发(疾病进展)抑或放化疗/免疫治疗后引发的治疗相关性改变。此类改变通常表现为两种形态:假性进展(多见于放化疗后6个月内)或放射性坏死(延迟性改变,常出现于放疗12个月后)。两者在临床和影像学特征上均与肿瘤复发高度相似(详见附录p7)。在缺乏可靠影像学鉴别手段的情况下,部分学者认为脑组织活检是确诊的金标准,但该方法存在显著局限性:组织取样过程不仅伴随手术风险,且因治疗后肿瘤异质性易导致取样偏差。因此,随访影像学检查成为区分疾病进展与治疗相关改变的实际手段,但会延误治疗时机并可能导致肿瘤加速进展。开发无创性影像学方法以实现精准鉴别具有急迫临床价值,这对高级别胶质瘤尤显关键。

基于人工智能的技术已应用于临床MRI结构序列分析,以区分肿瘤复发与治疗相关性改变。尽管全球多数医疗中心尚未将先进影像序列列为常规检测项目,且其操作标准存在显著中心间差异,但灌注成像、磁共振波谱成像(MRSI)、弥散加权成像(DWI)及弥散张量成像等技术已被证实对识别肿瘤进展具有补充价值。人工智能与先进影像技术的结合可能产生协同效应:例如综合应用多模态影像特征(弥散谱成像、DWI、T1与T2-FLAIR序列),其鉴别假性进展与肿瘤复发的效能显著优于单一模态。除MRI外,基于FET-PET的人工智能模型在假性进展检测中也取得进展——针对34例符合RANO标准(在完成治疗12周内出现影像学进展)患者的研究显示,测试组中所有患者均被准确诊断为假性进展。这些成果亟需大型多中心研究进一步验证。
在鉴别肿瘤与治疗相关影像表现的临床应用中,人工智能虽展现出作为无创解决方案的潜力,但现有研究存在明显局限:证据质量普遍较低、跨数据集普适性受限、以及受回顾性研究设计产生的混杂参考标准影响。
人工智能辅助的自动化疗效评估


人工智能(特别是深度学习)领域的最新进展,在自动化处理放射学重复性人工任务方面展现出显著潜力,包括肿瘤负荷的容积测定。脑肿瘤的自动识别与勾画(即分割)作为神经肿瘤学的长期研究重点,因国际脑肿瘤分割挑战赛(BraTS)对深度学习方法的推动取得突破性进展。该平台通过多模态结构MRI扫描为脑肿瘤容积分割前沿算法提供标准化评估框架,并延伸至总体生存期预测及MGMT启动子甲基化状态判别等扩展任务。

当前大量研究表明,肿瘤各亚区的精确自动勾画可作为定量化和可重复影像学终点指标在神经肿瘤学中的研究基础,这一事实印证了自动脑肿瘤分割技术的重要临床价值与现实意义。具体而言,基于人工智能的肿瘤负荷自动容积分割算法与放射科医师标注金标准间存在高度空间重叠性(即通过Dice相似系数计算),即使在多中心Ⅱ/Ⅲ期临床试验的独立验证集中,其对强化病灶及T2/FLAIR非强化异常信号的分割吻合度仍超90%。应用此类AI衍生分割结果进行定量疗效评估时,其临床试验可靠性较传统RANO标准提升36%。纵向对比分析显示AI分割的肿瘤体积演变判定进展时间与放射科医师标注结果一致性为87%,而地方影像中心报告与中央评审的一致性仅51%。更重要的是,自动化容积法界定的进展时间较中央RANO评审更适合作为总生存期的替代终点。这些发现共同验证了神经肿瘤自动化疗效评估的可行性、可靠性及临床相关性。

监管机构通常要求由独立影像学家进行盲态中心化疗效评估,因为依赖本地RANO评估时(研究者知晓患者治疗方案及临床信息),可能导致对真实治疗效应的过度估计或估计不足(即产生系统性偏倚)。但专家主导的中央评审需耗费大量人力与时间成本,显著增加临床试验负担。基于人工智能的肿瘤负荷自动勾画及疗效评估算法,可在影像数据中央评审过程中辅助放射科医师决策,从而提升未来临床试验的时效性并优化成本效益比。
挑战与未来方向

在综述神经肿瘤学人工智能应用现有文献时,当前研究普遍反映以下挑战与局限:鉴于原发性中枢神经系统肿瘤发病率低且难以获取全部患者数据,构建足以训练人工智能模型的庞大数据集面临严峻挑战。多数评估神经肿瘤AI方法的研究属单中心回顾性分析,此类设计易受研究机构特异性偏倚影响——包括专用扫描设备差异、影像采集协议不同、人群特征差异,以及低收入地区确诊时病情程度更趋晚期等社会经济因素。此外,绝大多数研究仅基于交叉验证报告结果,其研究设计的验证过程常缺失或不充分。

亟待开展多机构协同的大型前瞻性与回顾性研究,以实现对AI模型的严格评估并提升端到端流程的稳健性。鉴于中枢神经系统肿瘤的高度异质性,AI模型必须在病理确诊的病例中测试;但如前所述,此目标需通过多次定位活检以克服不同瘤内基因表达或治疗反应混杂导致的取样偏倚。

AI模型的可信度(trustworthiness)对实现以患者为中心的可靠临床决策至关重要。可信度作为总结性术语,涵盖:模型对环境噪声(固有或外部)及恶意攻击的抗性,以及在多中心、多用户、异质数据场景中的性能泛化能力。可信度要求AI模型在保证公正性、隐私保护、透明度与可解释性的同时,兼具结果的可复现性与重现性。当前多数AI方法(包括神经肿瘤学领域应用)缺乏可解释性,导致临床放射及肿瘤科医生对其常规应用尚存疑虑。尽管实现难度较高,但定量成像特征必须逐步整合至放射学标准体系——此举需满足两项前提:建立简明特征解释机制、系统验证其与组织学/分子标志物(除患者生存期外)的紧密关联,方能获得肿瘤影像学界广泛认可。

包含人口统计学多样化群体的大数据分析对推动临床实效研究及行政决策具有关键价值(罕见病领域尤甚)。神经肿瘤学联盟等多中心协作计划、标准化评估环境与数据集(如挑战赛)及联邦学习方案皆属重要路径。除定量影像分析外,AI在其他媒介(如数字化组织切片)的应用亦日益拓展。这种整合多模态数据的分析模式能否提升预后效能(为未来研究开辟新方向),仍有待验证。同步发表的策略评述将深入剖析上述挑战与局限,并提出针对性解决方案。
结论

神经影像人工智能工具在优化神经肿瘤学的诊断、预后评估及疗效判读方面展现出应用潜力。然而,鉴于迄今发表的人工智能算法缺乏可复现性(reproducibility)与普适性 (generalisability)的研究证据,人工智能-神经肿瘤疗效评估工作组(AI-RANO)成员认为:当前支持将AI技术纳入临床试验及临床实践标准指南的证据仍不充分。为促进这项前景广阔技术的持续发展,我们另文综述了人工智能方法学体系并提出了最佳实践建议。人工智能技术的进一步突破与跨机构数据共享水平的提升,将决定AI在拓展当前有限的神经肿瘤影像学技术方面的最大潜力开发空间。
✋对计划开展AI相关神经肿瘤临床试验的临床医生的启示:

1. 优先解决数据挑战


多中心数据共享的必要性:原发性CNS肿瘤发病率低,单一机构数据难以满足AI训练需求。需建立跨机构协作机制(如神经肿瘤联盟)获取多样化数据集,避免模型因地域/设备差异失效。

前瞻性与标准化采集:回顾性单中心研究易引入偏倚(如扫描协议差异),应推动前瞻性试验并标准化影像采集流程(如遵循IBSI标准),确保数据质量和可泛化性。
2. 严格验证AI模型的可信度


多维验证框架:模型需在独立外部数据集验证,并评估:

可重复性:不同扫描仪/中心的性能稳定性

可解释性:提供特征与生物学关联的证据(如IDH突变预测特征与肿瘤异质性关联)

临床相关性:预测结果需与组织病理或生存结局金标准一致

警惕过拟合风险:示例中MGMT甲基化预测模型在开放挑战中最高准确率仅62%,需优化标注一致性。
3. 聚焦临床痛点场景


治疗反应评估自动化:

AI自动分割肿瘤体积(Dice系数>90%)较人工RANO评估显著提升进展判断一致性(87% vs 51%),可替代独立中央评审减轻试验负担。

区分真性进展与假性进展时,推荐融合多模态影像(如DWI+灌注MRI,FET-PET纹理特征),减少延迟治疗风险。

预后分层工具开发:整合影像组学与分子标志物(如IDH状态+临床变量)可提升生存预测准确性(AUC 0.85–0.90),助力精准分层设计。
4. 强化监管与伦理合规


标准化报告规范:遵循AI-RANO后续建议,明确技术细节(如分割算法版本、特征提取方法)及伦理审查流程。

解决算法偏见:需验证模型在不同人种/医疗资源水平人群的公平性,避免加剧健康差异。

Reference:

1.Villanueva-Meyer JE, Bakas S, Tiwari P, et al. Artificial Intelligence for Response Assessment in Neuro Oncology (AI-RANO), part 1: review of current advancements. The Lancet Oncology. 2024;25(11):e581-e588. doi:10.1016/S1470-2045(24)00316-4
页: [1]
查看完整版本: AI-RANO共识解读 | AI革新神经肿瘤疗效评估:临床落地挑战与多中心协作机遇