在当今快速发展的医药健康领域,药物研发正经历着一场前所未有的变革,而人工智能(AI)技术的崛起无疑是这场变革中最引人注目的推手之一。作为二十一世纪最具颠覆性的技术之一,AI不仅深刻改变了我们的日常生活,更是在药物发现的舞台上崭露头角,以其独特的优势在药物研发的早期阶段发挥着核心作用。
本文基于药融咨询《2023年中国AI制药企业白皮书》部分精彩内容,旨在探讨AI技术如何通过三大关键路径——药物靶点的发现与验证、药物分子设计与优化、以及高效的化合物筛选,为新药研发注入前所未有的动力与效率,加速药物研发的进程,开启精准医疗的新篇章。
AI技术通过三方面助力药物发现阶段研发
一、AI助力药物靶点发现与验证随着微阵列、RNA-seq和高通量测序(HTS)技术的发展,高校、研究机构及企业实验室产生大量的生物医学数据,当代药物发现也因此进入了生物大数据时代。随着生物大数据分析,药物发现研究的重点逐渐转向靶向药物发现,即以“基因-药物-疾病”为中心,通过AI技术分析与疾病高度相关的靶点,发现酶、蛋白质或其他基因产物,以及针对该靶点的小分子。
药物靶点发现策略包括实验方法、多组学分析方法和AI计算方法。实验方法受限于通量和成本,而基于AI技术的多组学分析方法和AI计算方法能够高效、有效地发掘具有潜力成为药物靶点的分子。多组学分析方法整合生物学数据,揭示疾病关键靶点,而AI计算方法利用机器学习和数据挖掘技术筛选化合物库,加速药物靶点发现。这些方法在药物研究和开发中具有重要作用,并在未来发展中将变得更加关键。
AI技术通过三方面助力药物发现阶段研发
AI技术驱动药物靶点发现与验证工作流程
1. 最新技术举例(1)利用多组学数据训练机器学习/深度学习模型进行靶点发现
近年来,基于机器学习的算法,特别是深度学习方法,在制药领域取得了显著成果并引起了广泛关注。深度学习,也被称为深度神经网络,由多个隐藏层节点组成,通过级联方式逐步进行数据处理和特征提取。与传统的机器学习方法相比,近期更加先进的基于深度学习的架构,如生成对抗网络(GANs)、循环神经网络和迁移学习技术,在制药方面广泛应用,例如新型小分子设计、衰老研究以及基于转录数据的药物药理预测。此外,利用公开可用的多组学数据和文本挖掘,深度学习还在未满足临床需求的疾病方面发挥着重要作用。
(2)利用机器学习/深度学习模型进行分子建模
(3)大语言模型通过文献挖掘发现治疗发现
基于大型语言模型的聊天功能,如微软的BioGPT和Insilico Medicineiv的ChatPandaGPT,通过对从数百万论文中提取的大量文本数据进行预训练,可以将疾病、基因和生物过程联系起来,从而快速识别疾病发生和进展的生物学机制,并发现潜在的药物靶点和生物标志物。
(4)使用AI生成的合成数据进行靶点识别
“合成数据”是指通过人工生成的数据,它可以模拟真实世界中的模式和特征。借助人工智能算法,能够创建合成数据,以模拟各种生物数据,从而帮助研究人员探索和分析新药物的可能。这种方法在实验数据稀缺或难以获得的治疗领域尤其有价值。举例来说,在罕见疾病或患者数据有限的情况下,人工智能可以基于现有的知识和模式生成合成数据。然后,我们可以利用这些合成数据来训练人工智能模型,并识别可能被忽视的潜在治疗靶点。
(5)计算生物学大模型用于靶点发现
2. 国内企业布局AI靶点发现需要大量的生物数据来训练模型,并需要专业人员对数据进行清洗、预处理,去除冗余和错误数据,并对数据进行标准化和格式化。对于AIDD初创企业而言,与大型制药企业相比,他们面临着生物实验场景数据严重不足的挑战。在短时间内难以积累足够的数据量。因此,AI靶点发现技术在初创企业中具有一定的门槛。
国内能够进行靶点发现的AIDD企业约32家 ,主要分布在北京、上海、深圳等地区,具体企业名称及布局技术领域如下表所示。值得注意的是,AI靶点发现技术具有一定的局限性,靶点发现的企业并非完全利用AI技术:例如,水木未来能够利用冷冻电镜技术解析蛋白质结构进而完成靶点的发现;药物牧场利用IDInvivo+转座子靶点发现平台,结合Medchem5人工智能药物化学平台在药物靶点发现上进行开拓。
能够进行靶点发现的AIDD企业主要分为3类:AIDD Biotech企业、具备AI技术的CRO企业、AIDD技术平台企业。
国内主要布局AI药物靶点发现与验证初创企业汇总
3. 国内代表企业(1)英矽智能
英矽智能是一家由生成式人工智能驱动的临床阶段药物研发公司,通过下一代人工智能系统连接生物学、化学和临床试验分析,利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建强大且高效的人工智能药物研发平台,识别全新靶点并生成具有特定属性分子结构的候选药物。英矽智能聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域,推进并加速创新药物研发。
英矽智能AI靶点发现技术全球领先,具有大量应用实例。自主研发人工智能生物靶点发现平台 PandaOmics™ ,公司利用该平台确定了许多此前从未报道过的肌萎缩侧索硬化症 (ALS) 潜在治疗靶点。
(2)药物牧场
药物牧场成立于2015年,主要利用遗传学和人工智能技术开发针对乙肝、肿瘤和自身免疫疾病的创新疗法。利用IDInvivo+转座子靶点发现平台,结合Medchem5人工智能药物化学平台在药物靶点开拓的“卡脖子”领域攻关突破。前者基于转座子进行基因筛选,在具有完整免疫系统的活体动物中直接发现新药物靶点;后者利用深度学习技术进行药物分子的设计。
药物牧场已经发现20余个创新靶点;结合专有的人工智能(AI)药物发现平台,公司原创新药DF-006已经进入I期国际多中心临床。
(3)百图生科
百图生科是中国首家生物计算技术驱动的生命科学平台公司,致力于用高性能生物计算和多组学数据技术加速创新药物和早筛早诊等精准生命科学产品的研发。
业务将分为两大阶段,第一阶段利用前沿AI技术构建完整的生物计算平台,并与提供新的数据轴和新的数据分析、药物设计工具的初创企业与研究机构携手,构建生物计算生态,为生命科学企业和科研用户提供丰富的工具能力和完整的解决方案。第二阶段,将深度参与或主导发起新型精准药物和精准诊断产品的研发,携手合作伙伴,研发生命科学产品。百图生物成果入选美国癌症研究协会(AACR)2023 年会,研究内容覆盖全新抗体设计的蛋白结构预测模型、靶点发现,以及高通量自动化蛋白表达/表征平台的构建。
(4)予路乾行
予路乾行是一家以人工智能、量子力学及分子模拟算法为核心技术,通过模拟运算赋能新药研发的交叉学科技术驱动型生物医药公司。公司结合自主创新的AI技术,结合高精度分子动力学模拟核心算法,建立了国际领先的新一代人工智能药物研发平台。该AI研发平台主要针对未解析靶点与高柔性靶点进行高精度结构解析及生理动态过程还原模拟,从而实现难成药靶点的新药研发。
二、AI驱动药物分子设计、优化药物设计的目标是开发出具有特定性质、符合特定标准的药物,包括疗效、安全性、合理的化学和生物特性以及结构的新颖性。近年来,利用深度生成模型和强化学习算法进行新药设计被认为是一种有效的药物发现方法。这种方法能够绕过传统基于经验的药物设计模式的限制,让计算机通过自主学习药物靶点和分子特征,以更快的速度和更低的成本生成符合特定要求的化合物。这种新方法为药物设计领域带来了更多的创新和可能性。
1. 最新技术举例(1)AI生成模型在药物设计领域应用
AI生成模型在全新药物设计领域具有巨大的优势,因为它们在生成分子时不需要先验的化学知识。这些模型可以在更广阔的未知化学空间中进行搜索,超越现有分子结构的限制,自动设计新的分子结构。在新药设计中,广泛使用的深度生成模型包括基于循环神经网络(RNN)的生成模型、变分自编码器(VAE)和生成对抗网络(GAN)等。利用生成模型设计分子的过程具有高度的随机性,生成的分子在结构上呈现千变万化,质量也参差不齐。强化学习可以通过微调模型参数进行有针对性的优化,使生成的分子具备特定的药物分子特性。这种结合生成模型和强化学习的方法为全新药物设计提供了新的途径和可能性。
主要AI生成模型框架示意
(2)简单AI生成模型:基于循环神经网络(RNN)的生成模型设计药物分子
基于RNN的生成模型可以生成具有全新结构的化合物,同时保持与样本化合物具有相似的生化特性。训练过程首先利用大型化学数据库对RNN模型进行训练,使其学习如何生成正确的化学结构。然后使用强化学习算法对 RNN 参数进行微调,使模型能够将生成的化学结构映射到指定的化学空间。强化学习使基于 RNN 的生成模型能够生成具有良好药理特性的新分子,并确保生成分子的结构多样性。
(3)简单生成模型:基于循环神经网络(RNN)的生成模型的先导化合物优化
基于 RNN 的生成模型药物在先导化合物的优化方面发挥着作用。研究者提出了一种名为 “Scaffold-constrained molecular generation (SAMOA)”的新分子生成算法,用于解决先导化合物优化问题中的支架约束问题:使用 RNN 生成模型生成新分子的 SMILES 序列,然后使用精细采样程序实现支架约束并生成分子。此外,还应用了一种基于策略的强化学习算法来探索相关的化学空间,并生成与预期相匹配的新分子。
RNN分子生成模型主要工作流程
(4)进阶AI生成模型:基于变分自动编码器(VAE)的生成模型
VAE已成为复杂数据分布的无监督学习最流行的方法之一。VAE模型能够完成小分子的全新设计和肽序列的生成。VAE有许多不同的变体,但其核心架构始终不变(如下图所示)。
VAE的变体主要可以分为SMILES-VAE 、Graph-VAE和3Dgrid-VAE三种类型。SMILES-VAE是应用最为广泛,因为其容易实现,例如英矽智能构建的GENTRL算法。尽管GENTRL生成的分子顺利通过实验验证,但仍难以保证生成100%验证的SMILES。Graph-VAE和3Dgrid-VAE能够解决这些问题,由于3D结构训练数据有限,目前商业化应用较少。3D技术将对未来的AIDD项目具有巨大价值。
VAE模型的核心架构
(5)进阶AI生成模型:基于通用对抗性网络(GAN)的生成模型
GAN主要由生成器和鉴别器组成,它们相互博弈,互相对抗,通过对抗生成高质量的数据。GAN能够生成与真实数据分布相似的新样本,并能够使用网络来辨别网络,删除不需要的内容。在AIDD领域,GAN 通常与特征学习和强化学习等技术相结合,在蛋白质功能预测、小分子生成等方面发挥了重要作用。基于 GAN已经构建多种分子生成模型,如Mol-CycleGAN、ORGANIC、RANC。
(6)进阶AI生成模型:基于对抗性自动编码器(AAE)的生成模型设计药物分子
AAE在VAE基础上增加了判别模型,对采样分子和真实样本进行区分,基于对抗的思想训练生成模型和判别模型,扩展了分子的生成空间,一定程度上弥补了VAE在生成分子时结构新颖性方面的缺陷。
(7)基于强化学习(RL)的生成模型设计药物分子
强化学习(RL)通过智能体在与环境的交互过程中,不断优化人工智能模型,以最大限度地提高预期的累积回报。与有监督学习和无监督学习不同,RL可以在不受人类先验知识和训练数据束缚的情况下达到惊人的表现,例如最著名的应用是AlphaGo。
(8)综合多种技术的AI药物分子小分子生成平台技术成熟并成功在相关工作中应用
(9)AI技术应用于大分子药物分子设计
目前,国内外的AI药企主要专注于技术相对成熟的小分子药物研发,并且已经有多款由AI设计或辅助优化的小分子药物进入临床阶段。然而,近年来,随着新药物形式的兴起,布局抗体药物、核酸药物、多肽药物、基因细胞治疗药物、合成生物学等领域的企业比例也在不断增加。这些新药物形式带来了新的治疗理念和手段,为疾病的治疗提供了更广阔的前景。AI技术在这些领域的应用也在逐渐发展,为新药物形式的研发和优化提供支持。随着技术的进一步发展和应用的推广,未来可以期待AI在大分子药物领域的应用为医药行业带来更多的创新和突破。
2. 国内企业布局国内能够进行药物分子发现、设计、优化的AIDD企业60余家,主要分布在北京、上海、深圳、苏州、杭州等地区,具体企业名称及布局技术领域如下表所示。国内的药物分子设计、优化AI发展水平参差,具备药物分子从头设计的AI技术的企业数量较少,而大多数企业根据现有数据库进行/提供药物发现或“老药新用”服务。
国内主要布局AI药物分子发现、设计、优化初创企业汇总
3. 国内代表企业(1)云深智药
云深智药是由腾讯自主研发的AI驱动的药物发现平台。该公司开发的iDrug平台能够实现小分子的从头合成。现有的模型通过对ZINC drug-like中超过680万个小分子数据进行训练学习,来达到学习分子空间的目的。目前支持对319个Kinase和52个GPCR靶点进行分子生成。在分子生成这一过程中,腾讯的iDrug平台的算法能够针对不同靶点在分子空间中的映射进行针对性采样,从而生成新的可能对靶点有活性的分子。
(2)晶泰科技
晶泰科技是一家以智能化、自动化驱动的药物研发科技公司,为全球生物医药企业提供药物发现一体化解决方案。晶泰科技首创智能计算、智能实验和专家经验相结合的药物研发新模式,致力于打造三位一体的研发平台,助力客户缩短药物研发的周期,提高药物研发成功率。
晶泰科技具备小分子药物发现技术,基于智能计算、自动化实验和专家经验的“三位一体”研究模式,以XtalCryo靶点确证、XcelaHit分子设计、XceptionOp成药性优化和XcelDev可开发性优化四大技术平台覆盖新药研发从靶点到获得PCC的完整流程,提供一体化药物研发服务。此外,晶泰科技具备大分子药物发现技术,将AI算法与湿实验进行有机结合拥有从靶点识别到先导抗体药发现的全流程一体化能力。
(3)星药科技
星药科技是一家从临床需求出发、以AI为核心技术驱动药物研发的生物科技公司。
星药致力于使用人工智能驱动药物研发,布局未成药、难成药靶点的药物研发管线,解决未满足临床需求。以“AI驱动的研发管线”和“AI赋能的计算平台”为双循环,赋能药物研发产业。星药人工智能药物发现平台Pyxir®使用AI前沿算法,结合计算化学、药物化学和生物学的工具及经验,全方位攻克小分子药物早期研发流程中的疑难问题,快速发现活性高、成药性好且结构新颖的候选分子。星药的智能计算平台M1结合了AI与经典物理学原理,可快速准确地描述分子和蛋白间的相互作用、精确地计算目标药物分子与特定靶标的结合自由能,突破经典计算模拟方法,达到世界顶尖水平。
三、AI辅助药物分子筛选除了传统的实验方法,计算机辅助药物设计(Computer-Aided Drug Design,CADD)自问世以来在药物研发阶段发挥了巨大的作用。药物-靶标相互作用(DTI)是药物发现的重要基础,准确有效的DTI预测能极大地助力药物研发,加速先导或苗头化合物发现。计算机模拟DTI并非全新技术,世面已有许多成熟的开源程序或商业化软件。将AI技术引入CADD中,能够一定程度提高分子筛选的效率与覆盖度。
近年来基于机器学习/深度学习的预测DTI的方法陆续被报道。以已知化合物的活性和结构信息作为训练数据,并对数据进行预处理和特征提取,通过选择合适的机器学习算法进行模型构建和训练。后续利用已构建的机器学习模型对新化合物进行预测和筛选,并结合化学规则和药物性质等要求对化合物进行优化和筛选。
1. 最新技术举例(1)基于机器学习/深度学习的药物-靶标相互作用预测
(2)生物医药大模型助力药物分子筛选
2. 国内企业布局国内能够进行药物分子设计、优化的AIDD企业约55家, 主要分布在北京、上海、深圳、苏州、杭州等地区,具体企业名称及布局技术领域如下表所示。
国内主要布局AI药物分子筛选初创企业汇总
中国AIDD行业起步较欧美等国家略有滞后,虽然并不缺乏新药管线,但大多数管线仅处于早期研发阶段,具有临床管线的AIDD企业数量较少。由于交叉学科的特性,早期AIDD公司成立后一般需要经历漫长的团队建设、平台完善和技术验证的时期,自主设计分子并推进到后期临床的公司凤毛麟角。除“老药新用”外,目前国内研发进度进展临床试验最快的AI药物是英矽智能研发的ISM001-055,该药物的研发进度同样位于全球前列。
现阶段AI药企普遍数据生产能力和干湿实验结合能力不足,这限制了新平台的应用。AI药企在新治疗方式领域同样面临数据稀缺性和孤岛效应,而且生物药的数据生产成本更高,兼具不同药物形式和AI的人才储备更少,所以未来AI药企需要持续加强数据资产的挖掘和累积。
<END>