JACS Au刚刚发表了Saer Samanipour博士和他的团队对绘制我们周围所有化学物质的艰巨挑战的受邀观点。阿姆斯特丹大学Van 't Hoff分子科学研究所(UvA)的助理教授Samanipour对现有的科学进行了盘点,并得出结论,目前真正的主动化学管理是不可行的。
为了真正掌握广阔而不断扩大的化学宇宙,Samanipour提倡使用机器学习和人工智能,补充现有的检测和识别我们接触到的所有分子的策略。
在科学术语中,我们所接触到的所有分子的集合被称为“暴露化学空间”,这是萨曼尼普尔科学努力的核心。他的任务是探索这个巨大的分子空间,并将其映射到最“偏远”的角落。他受好奇心驱使,但更受需要驱使。
直接和间接接触大量化学物质,其中大部分是未知的,对人类健康构成重大威胁。例如,据估计,全球16%的过早死亡与污染有关。
环境也受到了影响,这可以从生物多样性的丧失中看到。根据Samanipour的说法,人类已经超越了将人造化学品引入地球系统的安全操作空间。
目前的方法本质上是被动的
他说:“我们对此知之甚少,这令人相当不满意。”“我们对已经在使用的化学物质知之甚少,更不用说我们能跟上目前以前所未有的速度生产的新化学物质了。”
在之前的一项研究中,他估计只有不到2%的我们接触到的化学物质被确定。
“社会对待这个问题的方式本质上是被动的,充其量是被动的。只有在我们观察到接触化学物质的某种影响之后,我们才会有分析它们的冲动。我们试图确定它们的存在,它们对环境和人类健康的影响,我们试图确定它们造成任何危害的机制。
“这导致了许多问题,最近的是PFAS化学品的危机。但我们也看到了阻燃剂、多氯联苯、氟氯化碳等的主要问题。”
此外,管制措施主要针对大量生产的具有非常特定分子结构的化学品。
Samanipour说:“还有无数我们不太了解的其他化学物质。这些不仅仅是人造的;大自然也会产生对我们有害的化学物质。通过纯天然的合成途径,或者通过人造化学物质的转化。”
根据Samanipour的说法,后者尤其被系统地忽视了。“传统的方法只记录了暴露物的一小部分,忽略了转化产物,而且往往产生不确定的结果。”
我们需要一种数据驱动的方法
本文全面回顾了暴露化学空间制图的最新进展,并对其结果进行了讨论。一个主要的瓶颈是传统的化学分析偏向于已知的或提出的结构,因为这是解释用色谱和质谱(GC/LC-HRMS)等分析方法获得的数据的关键。因此,更“意想不到”的化学物质被忽视了。在所谓的非目标分析(NTA)中可以避免这种偏差,但即使这样,结果也是有限的。
在过去的5年里,已经确定了1600种化学物质,而每年大约有700种新化学物质进入美国市场。
Samanipour说:“当你考虑到这些新化学物质的潜在转化产物时,你必须得出结论,NTA研究的速度太慢,无法赶上。照这样下去,我们接触到的化学物质仍将是未知的。”
本文列举了当前分析科学中的这些以及更多的瓶颈,并提出了改进结果的方法。Samanipour认为,特别是机器学习和人工智能的使用将真正推动该领域的发展。
他说:“我们需要在几个方面采用数据驱动的方法。首先,我们应该加强数据挖掘工作,从现有的化学数据库中提取信息。已经记录的结构、暴露和已识别化学物质的影响之间的关系将给我们带来新的见解。例如,它们可以帮助预测尚未确定的相关化学物质对健康的影响。
“其次,我们必须对现有方法获得的现有分析数据进行回顾性分析,扩大已确定的化学空间。我们肯定会在那里找到迄今为止一直被忽视的分子。第三,我们可以利用人工智能来了解暴露化学空间的结构和范围。”
当然,萨马尼普尔意识到,这是一件非常复杂、令人生畏的事情。但作为分子空间的一名宇航员——就像现实宇宙的探索者一样——他不会让这种复杂性吓倒他。“我们必须努力解决这个问题。我不幻想在我的科学生涯中,我们能够完整地绘制出暴露的化学空间。但我们必须面对它的复杂性,讨论它,并采取第一步来处理它,”他补充道。