蓝海大脑高性能深度学习GPU服务器助力生命科学发展
生命科学 | 药物研发 | 冷冻电镜
靶点发现 | 序列比对 | 晶体预测
随着高性能计算、数据挖掘、数据分析、深度学习、冷冻电镜、靶点发现、晶体预测等技术的快速发展,生命科学领域的医药研发、AI预测蛋白质结构、基因测序、小分子研究、疫苗研发得到快速发展。
2022年生命科学领域趋势
2022年生命科学行业的趋势主要分成三个层面,国家政策、资本市场和产业格局。
国家政策
药品、高值医用耗材集中带量采购进入常态化、制度化新的阶段;DRG/DIP的支付方式改革加快落地;国家积极引导应对人口老龄化国家战略。
资本市场
二级市场开始回归理性,重新构建估值体系有利于行业的良性发展;投资人更加偏好早期阶段,高潜力的初创企业更容易受到资本的青睐;美元投资人从初期的主力参与到目前的持币观望,人民币资本这两年强势崛起。
产业格局
综上所述,国家政策和资本市场带动了产业格局的变化。在产业格局方面,新生代健康产业公司进入商业化阶段;数字化和智能化正在深刻影响产业的发展。
近年来人工智能与各种数字化工具,已逐步渗透到健康产业的方方面面。在多个领域初步展现出突破瓶颈和降本增效的巨大潜力。
随着数字化和智能化对整个健康产业赋能的不断拓展与提升,整个健康产业中,很多传统的技术和商业模式,都面临着重构的可能。
在AI赋能新药研发方面,随着深度学习能力和人工智能技术的快速发展,以及算力的大幅提升,AI在新药研发方面正在取得长足的进步,并展示出令人惊叹的潜力。
以蛋白质结构预测为例,DeepMind公司的AlphaFold2已经预测出超过35万种蛋白质结构,涵盖了98.5%的人类蛋白质组以及20种生物的蛋白质结构。
全球TOP20跨国药企均在Al领域有大量布局,包括诺华、辉瑞、GSK、阿斯利康、赛诺菲、复星医药在内的大批国内外企业纷纷试水AI新药研发,期待跨越式提升新药研发的效率。与此同时,包括蓝海大脑也在这个领域加速布局。
数字化诊断对传统诊断加速赋能,数字疗法成为传统治疗技术方案强有力的补充。
手术机器人在临床手术端,得到更加广泛的应用,传统医院正在经历越来越彻底的数字化改造。医疗与消费正在更加紧密地走向融合的整体趋势。
2021年中国生命科学
2021年,在中国生命科学领域内的大量数据显示,中国健康产业规模达到10万亿元。我国60岁及以上人口已达2.7亿。2021年健康领域投资为2522.8亿元。
1000000亿元。中国健康产业规模持续增长。随着中国人口的进一步老龄化,以及政府和公众对健康的重视和投入的不断提高,据健康产业白皮书统计,2021年中国健康产业规模达到10万亿元。
其中,与药品相关的市场模型约为2.9万亿元,医疗器械和诊断的市场规模约为1万亿元,医疗服务、数字医疗和一般健康的市场规模约为6.1万亿元。
2.7亿人口。2021年,我国60岁及以上人口已达2.7亿,占总人口的18.9%,比2020年增长0.2%;60岁及以上人口超过2亿,占中国总人口的14.2%,比2020年上升0.7%,中国人口老龄化进一步加剧。
人口老龄化加剧。根据国家统计局发布的《中华人民共和国2021年国民经济和社会发展统计公报》数据。2021年,我国人口自然增长率仅为0.34%,比2020年下降1.11%。因此,中国社会人口结构的老龄化仍然是中国健康产业最重要的核心底层驱动力之一。
2522.8亿元。据统计,2020年中国健康领域融资额为2236.5亿元,2021年为2522.8亿元,同比增长12.8%。中国健康产业在资本市场趋于健康发展,估值体系发生变化,整体投资趋于理性。
2020年,中国大健康领域将有1538个融资项目。2021年为1831辆,同比增长19.05%。A股市场2021年科技创新板健康医疗公司IPO数量为37家,上半年24家,下半年13家。在港股市场,2021年健康行业上市公司有34家。总体来看,在资本市场上,健康产业呈现稳步增长。
高性能计算领域下生命科学领域
生命科学行业发展至今,早已离不开高性能计算的辅助,从计算机辅助药物设计、疫苗研发,到通过基因检测提供精准医疗服务、产前筛查等,高性能计算HPC在生命科学研究中扮演着十分重要的角色。
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学在短短十几年间,已经形成了多个研究方向,其中与高性能计算相关的主要研究重点如下。
序列比对
序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列,比较两个或多个序列的相似性,在数据库中搜索相关序列和子序列,寻找核苷酸(nucleotides)的连续产生模式,找出蛋白质和DNA序列中的信息成分。在序列对比的过程中将会产生巨量的数据,这对我们的存储系统带来了较大规模的挑战。
现在用于存储的硬盘容量每14个月会有一倍的增长,而基因序列的数据量则每5月左右会翻一番,例如:CeleraGenomics 和Sanger Centre 等主要基因研究机构都在管理数以万亿字节计的数据,其数据库信息量超过了人类开展生物学研究以来积累的数据量。
序列拼接
序列拼接是将测序生成的reads短片段拼接起来,恢复出原始的序列。该问题是序列分析的基本任务,是基因组研究成功与失败的关键,拼接结果直接影响到序列标注,基因预测、基因组比较等后续任务。基因组序列的拼接也是基因组研究必须解决的首要难题。其困难不仅来自它的海量数据(以人类基因组序列为例,从数量为10兆级的片断恢复出长度为亿级的原始序列),而且源于它含有高度重复的序列。
从计算机方面来讲,在拼接初期,会有大量的初始数据导入内存,然后对这些数据进行处理。因此,序列拼接对于计算机的内存量和计算能力都有非常大的需求。
基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。然后在数据库中进行对比并且得到优势结构,选择使用分子模拟的方法实现药物分子的设计。
分子动力学
主要是浮点计算为主 ,非常适合大规模并行,但是对网络需求比较大,节点间需要使用低延时,高带宽的Infiniband高速网。
测序仪离线处理
相比计算量,存储容量需求更大;作业运行需要与作业调度系统结合;测序离线处理往往有序列拼接的需求,目前最主流的序列拼接软件denovo为多线程程序,单节点内存容量需求非常大,往往需要达到256G甚至512GB,需要配置大容量内存SMP胖节点。
电子显微镜图像处理
主要为浮点计算,其中大量的单精度FFT计算;软件加速比完全线性,对网络依赖低;软件内存需求和IO需求较大,一般需要配置并行文件系统;系统计算量大,计算时间长,系统稳定性,可靠性要求高。
质谱仪原始资料处理
软件加速比接近线性,对网络依赖低;系统计算量大,计算时间长,系统稳定性,可靠性要求高。
蓝海大脑高性能服务器助力生命科学领域发展
方案介绍
蓝海大脑高性能计算推出多样化的架构满足不同计算需求,利用革新型的存储和内存技术和领先的软件工具,建立广泛的生态系统,快速处理增长的大型复杂数据集,升级系统可用性以获得更高吞吐率,确保高性能计算(HPC)应用性能最优化。
蓝海大脑凭借多年在生命科学生物基因分析领域积累的经验,通过横向扩展(scale-out)存储系统、IB低延迟网络、私有客户端技术小文件聚合及使用自研PCI-E极速存储等异构介质构建冷热数据分层等,满足生物基因应用中对海量数据存储场景高可靠性、高性能低延迟和低能耗的存储需求。
方案特点
- 架构的优化设计,在文件场景下单一目录可支持1000万文件,文件系统支持千亿级文件,单一命名空间支持20PB;支持5120节点扩展单集群可提供EB级容量空间。
- 节点并行处理数据 IO、保障系统整体负载均衡,数据分散存储,避免单节点故障带来的风险,节点在线横向扩展,满足持续增长的容量和性能需求。
- 支持丰富的主机连接接口,支持 10/25/40Gb iSCSI、56/100 InfiniBand主机连接,无缝接入用户现有环境,满足客户对高带宽及高性能计算的差异化需求,支持后端10GE 组网下的RDMA模式传输,支持TOE 卸载,提高系统性能。
- 节点级和硬盘级均衡,磁盘间容量误差率不超5%,节点间误差不超1%,可用容量利用率高达95%。同时高密度存储节点满足客户存储空间和能耗要求。
客户收益
- 生物基因分析的数据具有极高的价值,蓝海大脑分布式存储通过业界领先的冗余设计,为用户提供强大的数据保护能力和系统可用性数据可用性高达99.9999%。
- DNA基因分析分布式存储通过小文件聚合、对象聚合、全局缓存、多通道、硬件加速等技术,为客户提供创新的性能加速方案,全面提升存储系统性能。
- 生物基因分析研究产生的数据以每年10倍的速度快速增长,蓝海大脑分布式存储通过卓越的系统架构,在为用户提供海量的存储空间。通过大比例纠删功能,大幅提升容量利用率,为客户提供更低的TCO。
蓝海大脑 京ICP备18017748号-1