华为边缘计算解决方案(当生物计算领域)
华为边缘计算解决方案(当生物计算领域)
2024-11-23 12:33:10  作者:红尘作废  网址:https://m.xinb2b.cn/tech/nbc177641.html

机器之心报道

演讲:王紫东

编辑:华卫

疾病治疗和新药研发当中,多尺度建模发挥着重要作用。而当传统科学计算方式遇到生物医药这类没有方程式可寻的问题时,亟待 AI 技术的加持。

9 月 2 日,在 2022WAIC 上海生物计算论坛上,华为中央软件院昇思MindSpore 开源项目架构师王紫东发表主题演讲《MindSpore AI 科学计算实践》。演讲中,他主要介绍了传统生物计算领域中的发展瓶颈以及 MindSpore 在这方面所做的工作。

以下为王紫东在 2022WAIC 上海生物计算论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理:


大家下午好!很高兴有机会和大家一起分享 MindSpore 在 AI 生物计算方面做的实践。MindSpore 之前是传统的 AI 框架,目前正向 AI 科学计算融合的通用计算架构演进。

总体上讲,我们的实践是在高毅勤老师课题组指导下,共同合作完成的。研究中,我们主要从基于力场的分子模拟入手。

分子模拟的应用与挑战

借助分子模拟技术,我们可以模拟化学反应、蛋白质折叠以及同一物质在不同状态下的相变等;在行业之中,分子模拟也是比较重要的技术,如材料设计、药物设计、化工设计等场景都离不开分子模拟。


同时,基于力场的分子模拟也是微观世界探索中的关键问题。针对这样的问题,研究者做了很多的探索,目标是在更大的空间尺度和时间尺度上得到精确的分子模拟,以揭示微观规律。

针对微观世界,最有效的武器即为量子力学。保罗狄拉克曾说,「在有了量子力学之后,大部分物理化学现象的基本定律是完全已知的,困难在于实际应用中方程过于复杂无法求解。」

量子力学本质上是求解薛定谔方程,但薛定谔方程没办法处理较复杂的体系,只要粒子数大于 2 就没有办法求解。所以只能进行近似求解。学界为了针对更大体系进行分子模拟,发展出了很多方法,如分子动力学、粗粒化动力学和连续介质力学。

虽然能模拟的分子体系越来越大,但是精度在逐渐下降。以分子动力学为例,它利用第一性原理数据或者实验数据进行参数拟合,得到体系势能函数,也就是我们常说的分子力场。这种方法算得快,但精度很受限制,没有办法模拟精确的化学反应。

事实上,分子模拟一直处于模拟精度和效率无法兼得的状态,我把它归结为维度灾难。在这样的瓶颈下,现在已经有一些方法在解决这个问题,最主要的就是 AI。尤其是机器学习在解维度灾难问题上很有经验,也产生了一定结果,所以传统科学计算领域以后可能会成为 AI 的主战场。

「AI 分子模拟」的成就

现在,AI 和分子模拟已经开始进行融合,并且产生了有突破性的工作。这里我们看两个案例。

第一个案例 DeePMD,它主要是用 AI 神经网络去拟合分子力场,训练数据来自于第一性原理计算数据。DeePMD 兼顾精度和性能,并且获得了 2020 年的戈登贝尔奖。

案例二是 AlphaFold2,这是非常有突破性的成果,它更偏向 AI 思路,可以从海量数据中直接学习序列至结构的高维映射,效率比较高。令人惊喜的是,它的精度可以与实验精度相媲美,并被评为十大科技进步之首。


新一代分子模拟软件

AI 方法已经改变了传统计算的范式,成为一种新的可能性,软件上也要有相应的支持。我们来看一下现有软件能不能较好地支持 AI 新的范式,其实答案可能并不是很乐观。

主流分子模拟软件有这么几个特点:第一是开发时间长,用户依赖性强;第二是几乎都由西方发达国家开发,由中国人开发的模拟软件极少且用户有限;第三是模拟框架老旧,灵活性差,如需添加新算法,往往需要对程序代码进行大幅改动;第四是程序多用 C/C ,甚至 Fortran 语言编写,难以兼容目前主流以 Python 为前端语言的 AI 框架。

要想支持这种新范式,可能还是有很多路要走,现在做得并不是特别好。

在这样的背景下,MindSpore 和高毅勤老师课题组一起开发 MindSPONGE,我们把它称之为新一代分子模拟软件。

体系架构如何?

这是我们已知的第一个根植于 AI 计算框架中的分子软件,打破了传统 AI 和传统分子模拟计算的界限,并对它们的架构做了统一化的建模,取得了较好的效果。

我们发现,分子模拟和深度学习的训练虽然看着好像没什么关系,但实际上有相似的计算逻辑。比如,深度学习训练是要优化一个损失函数,分子模拟可能跟它是差不多的,只不过固定的是参数,参数指的是分子力场,再去优化以空间坐标为主的样本。


进行模块化拆分后,我们把 MindSPONGE 分为三大模块:系统建立、力场配置和迭代更新。我们有这么几个优势:1. 易用,无需推导原子受力的解析表达式;2. 高效,天然支持高通量模拟;3. 模块化,兼容 AI 势能函数。

有哪些案例实践?

这里举几个分子动力学的案例。分子动力学主要是知道分子下一步怎么动,这里面的核心就是分子力场。不管是构建分子力场,还是使用分子力场,MindSPONGE 都提供了非常方便的使用接口。

比如,克莱森重排有七元环与三元环转换的动力学过程,用我们自己训练的 AI 力场,以第一性原理精度去做动力学的迭代,精度及效率会优于传统方法。

另外,我们对新冠病毒 Delta 变异毒株也进行了模拟。模拟结果发现,Delta 变异时,其氢键数目和接触面积相对野生型毒株有一定增加,这可能就是 Delta 毒株传播力强的原因。

我们整体依托昇思MindSpore,使能 MindSpore 核心技术图算融合。MindSPONGE 的性能相较于其它框架有一定的优势。


DeepMind 开源了 AlphaFold2,这对于业界在该领域发展具有巨大的推进作用,但是其并没有开源自己的训练代码,也没有提供对应的数据集。同时,对于开源出来的网络权重,其有着非商用的 License。对于科研而言没有风险,但对于商业应用的话,存在一定的侵权的问题。

算法层面主要有两个问题,问题一:AlphaFold2 依赖于共进化信息,当共进化信息缺失严重时,蛋白结构预测精度会大幅下降。问题二:当存在多个模型推理出来的蛋白结构时,没有统一的算法评估这些结构的质量,这会导致无法选择最优的结构。

软件层面的问题主要为算法的内存消耗,算法占用的显存与序列长度是立方关系,如果基础软件内存优化做得不好,很容易导致显存爆炸。同时,推理时性能主要消耗在共进化信息检索。

针对上述不同层面的问题,我们协同高毅勤老师课题组一起进行了一些探索。


首先,我们复现了 AlphaFold2 的推理和训练,还构建了数据集,并把它开源出来,大家可以基于此数据集训练自己的模型。对于处理性能,如最耗时的前端搜索 MSA,我们都进行了优化,这项工作我们是在 4 月份完成的,当时去参加了 CAMEO 比赛,取得了较好的结果。

第二步,针对算法上依赖共进化信息的问题,我们利用了人工智能领域生成模型的思路,同时借鉴了 diffusion model 的模型构建思路,针对一些孤儿序列,构建了对应的 MSA 信息,取得了较好的效果。

最后,我们在蛋白质结构如何评估、如何挑出最好的蛋白质方面做了一些工作,表现也是良好的,比赛成绩优异。这项工作会在近期进行开源,如果大家感兴趣可以关注一下。

蛋白质结构预测和分子动力学这两个案例有意思的地方在于,可以联动。很多时候,结构并不符合物理的规律,可能很多蛋白质是可以继续优化的,很多位置是有冲突不合理的,这时需要分子动力学模拟来做进一步的动作,也就是蛋白质结构松弛。


当前 AlphaFold2, 在网络推理使用 JAX,分子动力学过程则使用 OpenMM 进行。由于 MindSPONGE 有统一建模的体系和工具,能够把蛋白质结构预测做一体化的推理,会给出更合理的结构。

还能提供什么能力?

此外,模型的内存和性能还有很多值得优化的地方,MindSPONGE 也提供了相应的解决方案,我们称之为 SOMAS 技术。该技术主要是并行拓扑内存约束优化器,可以对所有内存进行统一统筹管理,效果还是比较明显的。


性能方面,MindSPONGE 具有图算融合的特性,可以把小的细碎算子融成大算子,模型的整体性能会因此有提升。

传统优化改进到元优化

这里,对 MindSPONGE 的未来进行一些展望。


基于分子力场的模拟,分子力场肯定是最重要的。传统优化方式主要还是靠人工经验,比如先有力场,就可以做环境的模拟,模拟出的分布很可能不符合实验结果,这样就会产生误差;传统方式是通过人进行分析,是不是有些参数可以改一改,再去尝试一下。

相对来讲,这样比较盲目。MindSPONGE 采用的则是元优化方式。

现在,我们还有很多东西没有做完,后续希望把流程都打通,也希望和大家一起合作构建。这里感谢高毅勤老师课题组,也感谢所有社区贡献的小伙伴们!


最后, MindSpore 不只针对生物计算方面有相应的实践,我们在汽车、能源、气象、航空航天、EDA、材料、金融等方面都有规划。希望通过支撑更多行业应用,帮助合作伙伴商业落地,完善我们国产基础软硬件的能力。目前已经有的,主要是电磁仿真、流体仿真、分子模拟。

我们并不懂行业的技术,如果没有行业专家的参与,我们根本不知道做的这些东西对不对,所以希望和大家多多合作。如果大家感兴趣,可以随时联系我,谢谢大家!

  • 足坛现役脚下力量最强的10个球员(当今足坛只有4位大师)
  • 2024-11-23当今足坛只有4位大师昔日天才如今荣誉等身,32岁的克罗斯能否被称为大师?大师肯定是大师皇马的阿宽,除了脸宽一点,还有偶尔会出现传球失误以外,好像也没有什么缺点论原地控球出球,论阅读比赛的能力还有组织调度水平,貌似当今足坛。
  • 真搞不懂张艺谋的电影好在哪(这部彻头彻尾的悲剧)
  • 2024-11-23这部彻头彻尾的悲剧时间:19世纪20年代地点:一个偏远的山村剧情:一个你看过之后再也忘不了的故事1.一个人作恶,毁掉了三代人始作俑者,叫杨金山有50多岁了,他开着一个染布坊,不差钱,因为有生理缺陷生不出儿子,已经把两个。
  • 对于社会安全的认识(关于现存社会安全问题及其解决方案)
  • 2024-11-23关于现存社会安全问题及其解决方案大家好,我是彭亚兵,我们今天来讨论一个问题,什么问题呢?就是关于现存社会安全问题及其解决方案,从这个标题中就能看出我们要讨论的是两个点:一个是社会安全问题,一个是解决方案我在网上看了一下社会安全的定义。
  • 和珅到底因何而死被抄家 和珅入狱到死只有5天
  • 2024-11-23和珅到底因何而死被抄家 和珅入狱到死只有5天提起和珅,人们总能想到王刚老师所演的清朝电视剧无论在《宰相刘罗锅》还是《铁齿铜牙纪晓岚》里,王刚老师把大奸臣和珅的形象刻画得入木三分他对官场的拿捏尺度,以及对人性的认识深度,令电视机前的观众们拍案叫绝。
  • 镜头里面的白露节(江苏淮安白露临近)
  • 2024-11-23江苏淮安白露临近来源:视觉中国2022年9月3日,江苏省淮安市,白露节气临近秋高气爽,古黄河湿地秋叶呈现别样风韵“白露”节气将至,天气昼夜温差变化大,古黄河湿地花草植物红黄绿五彩缤纷,。
  • (湾樱花园落地福建南安清境桃源景区)
  • 2024-11-23湾樱花园落地福建南安清境桃源景区随着第44届世界遗产大会审议通过“泉州:宋元中国的世界海洋商贸中心”项目,一致决定将其列入《世界遗产名录》泉州申遗成功!至此,中国再添一处世界遗产,总数增至56个!作为本届大会中国唯一申报的世界遗产项。
  • 妻子嫌丈夫太穷小说(小说妻子试穿婚纱)
  • 2024-11-23小说妻子试穿婚纱一夜近乎惩罚的缠绵后,池晚轻浑身剧疼,好似被车轮碾过一般她在家休息了半日,养足精神,想去公司,一开门,却发现门口守着两个陌生的保镖,将她大门死死堵住“不好意思,池小姐,从今以后,你不准踏出这里半步”厉。
  • 言承旭沈月身高对比(言承旭沈月交换吧)
  • 2024-11-23言承旭沈月交换吧新京报讯(记者张赫)3月26日,言承旭、沈月领衔主演的《交换吧!运气》宣布更名为《我好喜欢你》言承旭饰演的陆星成不苟言笑,沈月饰演的则是励志可爱童小悠据悉该剧已杀青,即将在优酷和芒果TV播出《我好喜欢。
  • 孕晚期催产技巧(怀孕催产经历分享)
  • 2024-11-23怀孕催产经历分享怀孕不是一件易事,十月怀胎,一朝分娩,只有经历过的人才能懂得其中的艰辛,男生根本没办法感同身受,因为刚生完没多久,趁记忆还清晰,写一下自己的怀孕生产经历因为之前的宝宝心脏有问题,经过了引产(具体可看我。
  • 好听简单精致的句子有哪些(精致的经典句子)
  • 2024-11-23精致的经典句子珍惜所有的不期而遇,看淡所有的不辞而别人生不过如此,且行且珍惜,自己永远是自己的主角,不要总在别人的戏剧里充当着配角决定放弃了的事,就请放弃的干干净净谁走进你的生命,是由命运决定;谁停留在你生命中,却。
  • 四大重点板块是哪几个(规划建议有15个部分)
  • 2024-11-23规划建议有15个部分来源:新华社中央财经委员会办公室分管日常工作的副主任韩文秀说,规划《建议》有15个部分,总体上分为三大板块总论部分主要阐述决胜全面建成小康社会的成就、我国发展环境、2035年远景目标、“十四五”时期的。