基于炼丹神器深度学习下的生命科学冷冻电镜单细胞基因分析的解决方案

生命科学 | 冷冻电镜 | 蛋白质结构

深度学习 | 基因测序 | 卷积神经网络

当前随着冷冻电镜、蛋白质组学、深度学习、基因测序、卷积神经网络、高性能计算、单细胞基因、数据挖掘、数据分析、靶点发现、晶体预测、AlphaFold等技术的快速发展，生命科学开始被逐渐被人们所重视。

生命科学行业涉及研究微生物、动植物等一切生物的科学领域，也包括生命伦理学等相关领域的考量。生命科学的研究对提高人类生活质量有很大帮助。从全球范围来看，21世纪以来，全球生命科学发展进入快车道，特别是人类基因组计划的实施、干细胞研究的深入、克隆技术的不断发展等因素将生命科学的发展推向了新的高度，同时相应领域的研发投入也在不断增加。作为强烈依赖科技信息技术的典型代表，生命科学行业的药物研发和基因测序分析领域面临着计算资源短缺、研发周期长等问题。

生命科学深度学习水冷工作站.png

生命科学领域面临的挑战

清华大学生命科学学院生物计算平台主管杨涛认为：冷冻电镜目前在科研方向的挑战分别是：数据管理的挑战，科研进度的挑战和实验风险的挑战。

一、数据管理

源于超量数据，在最大化压缩的前提下，每天大约会产生4TB的数据量。为了使计算设备的效率最大化，需要365天不间断工作。一年的数据总量非常惊人，给数据管理带来巨大的挑战。

二、科研管理

冷冻电镜技术已经备受认可，各科研机构都在调动资源抢占高地，所以存在时间效率的问题，哪怕比别人慢半天，都会失去首发的价值。

三、实验风险

这是一个非常长时间的实验流水线，任何中间环节都存在风险。一旦不能及时解决风险，整个系统的产出就会大打折扣。

生命科学网络架构图.png

客户需求

某学院单细胞基因组研究技术中心(简称“该中心”)旨在建立标准化、自动化的工程技术，提高单细胞结构分析水平，高精度确定从蛋白质分子到全细胞的三维结构，并在此基础上揭示蛋白质及其复合体功能，大规模制备蛋白/抗体，建成具有国际一流水平和综合示范功能的蛋白质科学研究核心基地。

就生命科学研究项目而言，每个项目涉及的数据量小在上百TB。对于时间周期长、领域广的项目，未来数据需求可能在PB级。此外，该中心需要考虑支持多种生命科学研究项目，而其中，不同应用对高性能平台计算环境有不同的要求，如基因测序需要高I/O性能和内存大消耗，而分子动力学研究除了I/O性能外，还需要较高的网络和并发处理能力。所有这些都对该中心构建高性能平台提出了挑战:

一、数据量增长10多倍，计算能力也要“跟上”

研究团队采用的冷冻电镜技术在近两年取得了革命性的进展，具体来说就是相机技术实现了飞跃，采集数据的能力提高了10多倍，甚至上百倍，从而使得研究蛋白质结构的源数据呈几何级数增长，这就需要中心在后期全面提升数据处理和计算能力。

二、亟需简化管理保障服务品质

随着生命科学研究项目越来越多，如何根据不同项目和研究人员个性化需求分配资源，及时回收资源，实现跨整个高性能资源池的集中统一管理，简化维护管理，减轻运维人员负担，是科研高性能计算平台普遍面临问题。

三、TCO居高不下

生命科学研究迅速成为国家战略发展方向，导致研究项目和跨学科研究需求快速增加。传统的分层计算存储资源利用率低，导致新增费用快速增加。此外，能耗也成为阻碍高性能计算中心扩展的不可逾越的“高墙”。

四、网络性能不能拖后腿

作为保证高性能集群正常运行的关键，高性能网络承担着重要的连接任务。随着单节点计算和存储性能的不断提升，高性能用户需要万兆，四万兆，十万兆，InfiniBand网络选择以满足不同的高性能计算需求。

冷冻电镜面临到的问题.png

解决方案特点

蓝海大脑基于融合架构助力某学院单细胞基因组研究技术中心搭建了一个分布式高性能平台，拥有250个物理计算节点，5000个计算核心，总存储容量1.92PB，理论计算能力208Tflops。通过Lustre技术实现了跨20个融合架构的集中统一管理。

一、4.1TFLOPS/U的计算密度，4倍性能提升

可针对不同项目量身定制配置。其中，高密度计算节点支持14核英特尔®至强TM E5-2600v3处理器，在2U中拥有224个计算核心的密度，单U空间的计算性能密度达到业界领先的4.1TFLOPS，同时支持64个DIMM高密度内存，确保高性能和低延迟的性能要求。此外，还支持InfiniBand接口，非常适合要求超低延迟的工作负载。在强大计算能力的保证下，计算效率提升3-4倍，过去4-5天才能完成的计算任务，一天就能完成。

二、简化高性能资源池监控管理

根据项目要求定制不同的系统配置，同时通过机箱管理控制器(CMC)，可以集中监控和管理20个FX系统。此外，无代理生命周期管理和一对多远程管理功能可确保BIOS和固件程序更新不会影响业务稳定性，并提高系统中计算节点生命周期管理的效率。而且在扩展服务器时，IT人员可以通过下发配置文件，使系统自动更新BIOS和固件程序，避免了重复输入配置参数的繁琐过程，减少了人工输入错误导致的系统故障，简化了管理运维，降低了管理费用。

三、TCO降低约20%

自动化、高密度、低能耗的集成部署、集中统一管理，可以使中心的TCO降低20%左右。其中，蓝海大脑将通过主板连接服务器、存储和1G0b网络，通过模块化设计形成融合一体机，同时提供散热、供电、网络、管理和PCIe扩展的共享插槽，降低数据中心的占地和能耗，帮助中心获得良好的性价比。

四、高速网络保障平台I/O性能

蓝海大脑为中心提供四万兆高性能网络，在保持成本优势的基础上，为用户提供稳定的网络性能，保证高性能、低延迟要求。

五、打破原有的服务器散热方式，采用液冷散热

蓝海大脑液冷服务器系统突破传统风冷散热模式，采用风冷和液冷混合散热模式——服务器内主要热源 CPU 利用液冷冷板进行冷却，其余热源仍采用风冷方式进行冷却。通过这种混合制冷方式，可大幅提升服务器散热效率，同时，降低主要热源 CPU 散热所耗电能，并增强服务器可靠性。经检测，采用液冷服务器配套基础设施解决方案的数据中心年均 PUE 值可降低至 1.2 以下。

冷冻电镜工作站.png

客户收益

一、蓝海大脑HPC高性能计算与AI平台已成为高性能、多功能、专业的前沿计算平台，尤其在AI深度学习方面，为校内外生物学研究提供高效的计算支持。同时为计算生物学、深度学习、基因测序等多个研究组提供计算服务。包括测序仪的离线处理、序列搜寻比对分析、分子动力学模拟、计算机辅助药物设计和分子对接、生物网络的计算。

二、全力支持基于深度学习的分子图编码和基于深度学习的中药方剂系统的研发。研发人员可以利用HPC高性能计算和AI平台开发基于三维分子图谱的深度学习编码，进行基于深度学习的中医诊断处方。多任务分子预测模型由卷积神经网络或递归神经网络构成。交叉验证用于调整和验证参数，外部数据用于测试和评估模型。同时，从预测模型中挖掘关键信息。同时通过卷积神经网络或递归神经网络学习大量的方剂配伍信息，然后用主药生成语义自动关联分析得到的辅药，从而生成新的方剂。蓝海大脑HPC高性能计算和AI平台提供了高效并行的计算资源，大大加快了模型的训练速度，从而在有效的时间内完成最终的任务。

三、支持基于化学片段的从头计算药物设计，对疾病的治疗和生物学功能的理解有重要的促进作用。传统的药物筛选过程耗时长，成本高，导致整个药物设计和发现过程效率低下。为了加快药物设计和发现的进程，研究人员利用这一平台逐步发展了分子从头设计的方法，并取得了良好的效果。研究人员通过蒙特卡洛树搜索和神经网络模型的结合，实现了巨大化学空间的搜索和最优结构的采样，快速完成了完整的从头计算药物设计过程，并探索了蛋白质口袋表征和评分功能。

四、利用深度学习框架构建深度学习模型，加强学习模型的训练，实现深度学习的评分函数模型的训练和测试，并对模型进行训练。对于模型生成的分子，通过聚类分析分子的合成、毒性和理化性质，选择合适的分子。