AI 驱动逆合成预测:全面综述与研究全景
作者:微信文章本文(https://doi.org/10.1016/j.eng.2022.04.021)是一篇系统梳理人工智能(AI)在逆合成预测领域研究进展的综述,核心目标是替代传统依赖专家经验的规则基系统,通过数据驱动方法让机器自动从实验数据集学习化学知识,解决逆合成预测中 “依赖专业知识、路线次优、计算成本高” 的核心痛点,为有机合成(尤其是药物和天然产物合成)提供高效、理性的路线规划方案。文章构建了 AI 驱动逆合成预测的完整研究框架,涵盖问题定义、核心技术、组件重塑、研究进展与未来方向,为跨化学与计算机领域的研究者提供全面指引。
一、逆合成预测的问题定义与核心挑战
1. 核心定义与基础概念
分子与反应表征分子可表示为图(原子为节点、键为边)、SMILES 字符串或分子指纹;反应是反应物到产物的转化,逆合成则是其逆过程(产物→反应物)。单步逆合成预测
给定目标产物,预测能生成该产物的反应物集合,需经历 “断键生成合成子→合成子转化为稳定反应物” 的过程(Fig.1:单步逆合成反应示例,通过断裂产物中一个键得到带电荷的合成子,经重排后获得稳定反应物)。多步逆合成规划递归分解目标分子,直至所有反应物均为商用可得砌块,需优化步骤数、成本、产率等指标。关键概念:
反应中心:直接参与成键 / 断键的原子和键(Fig.2:反应模板示例,高亮部分为反应中心,模板编码反应中心的原子连接变化);合成子:分子断裂后的片段(多为不稳定离子 / 自由基),需转化为实际化学试剂;模板:编码反应中心变化的子图规则。
2. 核心研究挑战
(1)单步逆合成预测挑战
反应中心确定:目标分子可能存在多个潜在断键位点,需模拟化学家的断键优先级判断,而传统规则繁琐、泛化性差(Fig.3:展示两条成功逆合成路线与一条失败路线,失败原因是红色矩形内反应不可行,直观体现路线设计中反应可行性的重要性);
反应物生成:需满足三重有效性:①化学有效性(分子结构符合价键规则,如 Fig.4 (a) 所示含三键氟原子的无效分子);②反应可行性(符合电子效应、位阻效应等,如 Fig.4 (b) 中溴原子错误连接酯基邻位导致反应中心低活性);③原子守恒(产物原子需完全映射到反应物,如 Fig.4 (c) 中产物额外碳原子未在反应物中存在)。
(2)多步逆合成规划挑战
搜索空间指数级增长:每步反应可能有数百种反应物选择,60 步反应的路线组合呈指数级膨胀;路线评价标准模糊:学术场景注重新颖性,工业场景注重成本与稳定性,缺乏统一量化指标;数据集稀缺:公开的高质量多步路线数据集少,多依赖人工设计或单步反应拼接,存在噪声和不平衡问题。
二、支撑逆合成预测的关键 AI 技术
AI 技术的核心价值是解决传统规则基系统的 “模板有限、泛化性差、计算昂贵” 问题,四大核心技术形成互补:
1. 序列模型(Seq2Seq)
核心思路:将分子表示为 SMILES 字符串,通过 “编码器 - 解码器” 架构实现 “产物 SMILES→反应物 SMILES” 的序列翻译,类比机器翻译。
代表模型:BiLSTM、Transformer(主流),其中 Transformer 解决了 RNN 的长距离依赖问题,提升预测准确率(Fig.8:BiLSTM 模型示例,通过编码器处理产物 SMILES,解码器生成反应物 SMILES 序列)。优势:实现端到端训练,操作简单;劣势:忽略分子空间结构,生成的 SMILES 可能不符合化学规则,缺乏可解释性。
2. 图神经网络(GNN)
核心思路:将分子建模为图结构(原子 = 节点,键 = 边),通过 GCN、GAT、MPN 等模型学习分子结构表征,精准捕捉原子间相互作用和反应中心特征。优势:天然契合分子的空间结构,能有效识别反应中心、预测键断裂位点;代表应用:用于反应中心预测(如 R-GCN、EGAT)和反应物生成(如 MEGAN 的图编辑策略)。
3. 搜索算法
核心作用:解决多步规划的庞大搜索空间问题,分为无信息搜索(深度优先、广度优先)和启发式搜索(主流)。代表算法:
A搜索:结合实际成本与启发式成本,确保最优解,如 Retro用预训练模型提供启发式;
蒙特卡洛树搜索(MCTS):通过 “选择 - 扩展 - 模拟 - 回溯” 平衡探索与利用,如 3N-MCTS 用三个神经网络优化价值估计(Fig.9:MCTS 四阶段示意图,包括选择、扩展、模拟、回溯,通过启发式评分优化路线搜索);波束搜索:扩展最有潜力的有限节点,提升效率,如 HyperGraph 搜索用于多步路线探索。
4. 深度强化学习(DRL)
核心思路:将多步逆合成视为序列决策问题,智能体通过试错学习最优路线选择策略,无需大规模标注数据集。优势:适配 “每步选择→反馈→下一步决策” 的循环,适合探索新颖路线;应用场景:多步路线规划中的价值估计和策略优化,如通过奖励函数(步骤数少、成本低)引导模型学习最优路线。
三、AI 对逆合成预测的核心重塑
文章提出 AI 通过四大组件重构逆合成预测流程(Fig.5:AI 驱动逆合成预测框架全景图,左侧为分子 / 反应表征、候选反应评估两大基础设计元素,右侧为单步逆合成预测、多步逆合成预测两大核心组件),实现从 “规则驱动” 到 “数据驱动” 的转型:
1. 分子 / 反应表征:AI 理解化学的基础
(1)分子表征
Fig.6 总结了三种主流分子表征方法:SMILES 字符串(易处理,适配 Seq2Seq 模型)、Morgan 指纹向量(子结构特征编码)、图结构(保留原子连接与空间关系),各有优劣:
表征方式核心思路优势劣势代表应用SMILES 字符串用字符序列编码分子结构(如乙醇 = CC (O))易处理,适配 Seq2Seq 模型忽略空间结构,依赖语法规则BiLSTM、Transformer 模型分子指纹将分子子结构映射为比特向量(如 Morgan 指纹)计算高效,适合相似性搜索丢失结构细节,可解释性差RetroSim 的模板检索图结构原子为节点、键为边,保留空间与连接关系契合化学本质,可解释性强计算复杂度高GCN、GAT 等模型(2)反应表征
反应 SMILES:反应物 > 试剂 > 产物的字符串组合;浓缩反应图(CGR):叠加反应物与产物图,突出原子 / 键的变化,依赖原子映射;预训练嵌入:从大规模反应数据中提取反应特征(如 RXNFP 模型)。
2. 单步逆合成预测:AI 生成反应物的核心环节
分为三类方法,各有优劣,互补共存:
(1)模板基方法
核心思路:提取反应模板(编码反应中心变化),通过模板检索匹配目标分子,生成反应物(Fig.2:反应模板示例,高亮部分为反应中心,模板通过子图模式编码产物与反应物的连接变化)。关键步骤:模板提取(人工编码或自动从反应数据中提取,如 RDChiral 工具)→模板检索(相似性匹配或分类模型预测)。代表算法:
RetroSim(相似性检索模板);
NeuralSym(模板分类预测,Fig.7:NeuralSym 模型示意图,通过全连接神经网络对分子指纹进行多分类,输出最优模板);GLN(图逻辑网络,联合优化模板与反应物概率)。
优势:可解释性强,反应可行性高;劣势:依赖模板覆盖度,泛化性差,难以处理新型反应。
(2)模板无关方法
核心思路:无需预设模板,直接通过 AI 模型预测反应中心或生成反应物。两类子方法:
直接生成:如 MEGAN(图编辑策略,逐步修改产物图生成反应物)、Transformer(SMILES 序列直接翻译);合成子转化:如 G2Gs(先断键生成合成子,再通过图转化生成反应物)。
优势:泛化性强,可处理新型反应;劣势:生成的反应物可能不符合化学规则,需额外验证。
(3)半模板基方法(主流优选)
核心思路:分两步:①预测反应中心(模板无关);②生成反应物(合成子转化),兼顾泛化性与可行性。代表算法:RetroXpert(EGAT 预测反应中心 + Transformer 转化合成子)、GraphRetro(MPN 预测反应中心 + MLP 选择离去基团)。优势:平衡泛化性与化学有效性,Top-1 预测准确率最优;劣势:两步训练复杂度高。
3. 候选反应评估
从三个维度量化反应质量,避免无效路线:
(1)可行性评估
逆合成评分:模型自带置信度(如 GLN 的模板 + 反应物联合评分);往返验证:用正向反应模型验证 “预测反应物→目标产物” 是否成立,核心指标为往返准确率(有效反应物占比)和覆盖率(有至少一组有效反应物的产物占比)。
(2)多样性评估
核心指标:詹森 - 香农散度(JSD),衡量预测反应的类型分布差异;反应分类:规则基(如 NameRXN 分类 1000 种命名反应)或学习基(如 RXNFP 用 Transformer 分类,准确率 98.2%)。
(3)效率评估
合成复杂度:SCScore,基于反应 corpus 学习,反应物 SCScore≤产物,值越高合成越难;反应产率:通过分子指纹、化学语言描述符(CLDs)等预测,目前因标注噪声大,性能待提升。
4. 多步逆合成规划:AI 设计最优路线
核心是 “高效搜索 + 精准价值估计”,分为三大环节:
(1)离线学习:构建价值估计模型
核心思路:从历史路线数据中预训练模型,预测分子的合成成本(如步骤数、原料成本),为搜索提供启发式。数据来源:化学家设计的路线或单步反应拼接的最短路线(如 Chen et al. 的数据集);代表应用:Retro用预训练模型提供 A搜索的启发式成本;3N-MCTS 用政策网络初始化价值估计。
(2)在线搜索:高效探索路线空间
主流策略:启发式搜索,利用离线模型的价值估计引导搜索方向,避免盲目探索;代表算法对比:算法搜索策略价值估计方式核心优势Retro*A * 搜索离线预训练模型解决率高(86.84%),路线最优3N-MCTSMCTS离线预训练 + 在线 rollout平衡探索与利用,适合新颖路线DFPN-E深度优先证明数搜索启发式边缘成本搜索速度快,节点扩展少搜索树示例
Fig.10:逆合成搜索树示意图,从目标分子出发,节点经筛选或丢弃,叶节点终止于商用砌块或无扩展空间。
(3)路线评价:量化路线质量
有效性指标:解决率(成功分解至商用砌块的分子占比)、路线长度、总成本(NLL 求和);效率指标:搜索时间、单步模型调用次数;主观评价:双盲 A/B 测试,由化学家对比算法路线与专家路线的可行性。
四、当前研究进展与实证结果
1. 核心数据集
USPTO-50K:5 万条反应,涵盖 10 种反应类型,用于单步预测基准测试;USPTO-full:95 万条纯化反应,无反应类型限制,更贴近实际应用;多步路线数据集:Chen et al. 的 29.9 万训练路线 + 189 条测试路线(基于 USPTO 拼接)、MIT 化学考试 20 个专家标注问题。
2. 算法性能对比
(1)单步逆合成预测(USPTO-50K)
模板基方法:GLN 表现最优,Top-1 准确率 64.2%(反应类型已知)、69.0%(反应类型未知),Top-50 准确率 93.2%;模板无关方法:Transformer Top-1 准确率 42.7%,MEGAN 提升至 60.7%;半模板基方法:GraphRetro Top-1 准确率 63.9%(反应类型已知)、53.7%(未知),泛化性最优。
(2)多步逆合成规划(189 条测试路线)
Retro*:解决率 86.84%,平均时间 156.58s,显著优于 DFPN-E(55.26%)和 MCTS(33.58%);路线质量:Retro * 生成的路线中 112 条优于对比算法,且平均长度更短。
3. 完整逆合成规划框架
框架名称单步核心技术多步搜索策略可访问性核心亮点Synthia(Chematica)10 万条专家模板多波束搜索商用支持用户编辑评分函数,适配复杂天然产物ASKCOS自动提取 16 万 + 模板根并行 MCTS开源集成 Reaxys 数据,支持机器人自动执行路线AiZynthFinder模板基方法MCTS开源灵活可扩展,适合算法基准测试RoboRXN模板无关(Molecular Transformer)波束搜索免费云服务基于 250 万反应训练,支持快速合成验证(如 3 - 溴苄胺 1 小时合成)五、未来研究方向
文章指出三大核心方向,旨在解决当前 AI 逆合成的关键瓶颈:
1. 分布外泛化与不确定性校准
问题:现有模型在训练数据分布外的新型分子 / 反应上泛化性差;解决方案:开发模块化、组合性模型,同时量化预测不确定性,便于专家干预;应用场景:新药研发中的新型分子合成(如 AstraZeneca 虚拟库中的化合物)。
2. 路线整体评价
问题:现有评价仅关注单步反应质量,忽略路线的战略合理性(如收敛合成、保护 / 脱保护策略);解决方案:数据驱动的整体路线评价,编码路径级信息(如动态树结构 LSTM),优先选择收敛合成、减少无效步骤的路线。
3. 知识图谱与推理
问题:新型反应难以快速整合到现有模型,模型更新成本高;解决方案:构建分子 - 反应语义知识图谱,定义 “ReactantOf”“Category.Share” 等关系,通过图谱推理正则化路线设计,快速融入新反应知识。
六、核心结论
本文构建了 AI 驱动逆合成预测的完整研究框架(Fig.5),明确了 “分子表征 - 单步预测 - 反应评估 - 多步规划” 的四大核心组件,证实 AI 可有效替代传统规则基系统,在准确率、泛化性和效率上实现突破。当前,半模板基方法(如 GraphRetro)和 A搜索类多步算法(如 Retro)表现最优,开源框架(ASKCOS、AiZynthFinder)和商用工具(Synthia、RoboRXN)已具备实际应用价值。未来需聚焦分布外泛化、路线战略评价和知识图谱推理,推动 AI 成为化学家的可靠辅助工具,加速新药研发和天然产物合成。
页:
[1]