计世网

青云QingCloud EHPC:超算商业化新势力
作者:宋辰 | 来源:计算机世界
2021-11-26
大数据和人工智能与超算融合的场景对超算提出了一定的挑战。

 

科学家通过分析过去20年的全球卫星图像,就能获得每年森林的流失情况。为了得到这个数据,科学家使用Google Earth Engine超算平台,动用了1万台服务器,分析了 65万张遥感影像。借助超算的算力,整个计算时间只要4个小时。

中科院研究员商红慧通过模拟拉曼光谱,结合量子的扰动,设计了全电子精度的第一性原理计算理论算法,能够通过量子力学的方法对所有原子做模拟,从而得到蛋白质分子的信息,使药物的研发更快速、更精确。在这个办法的背后,支撑运行的是一套468 PFlops 算力的太湖之光超级计算机,能够模拟多达3006个原子。

F1赛道上的红牛车队在比赛之前会根据下一场比赛赛道的特定环境做模拟,包括使用虚拟风洞来优化空气动力学;模拟电源散热系统,让赛车能发挥最大功率;模拟碰撞优化车身结构,让赛车可以符合比赛的安全法规。利用超算平台的算力,红牛车队这种针对性的模拟和优化能够在 7 天内完成,保证他们每一场比赛都能拥有最大的优势。

不仅仅是科研领域,如今,随着大数据经济的崛起、训练人工智能(AI)算法和运行模拟所需的计算能力,以及云计算的增长,使业界对高性能计算的需求与日俱增。但与此同时,大数据和人工智能与超算融合的场景对超算也提出了一定的挑战。

首先是大数据应用对存储的需求比以前大很多,第二,不同类型的业务对存储的要求也不一样。用户都希望有无限的存储容量、最高的性能,还要很便宜,这就需要超算中心对不同的业务提供合适的存储类型。

早期,超算中心都是围绕计算资源建的,存储上基本只有并行文件存储,并且容量有限,难以支撑大数据的场景。新一代的超算中心有些已经配备了足够大的容量,可以承接仿真建模类大数据业务,但由于超算中心本身提供的服务比较单一,也无法承载这种纯粹的大数据业务。

而人工智能应用的爆发,则要求超算中心有充足的GPU资源,还要提供对应的软件框架,比如 TensorFlow。这些业务往往还希望用云原生的方式来部署和运行。这对以 Slurm 调度器为主的超算中心也是一个很大的挑战。

QingCloud EHPC,融合的超算云平台

近日,青云科技推出了EHPC超算云平台—— QingCloud EHPC,可以全面地支持各种新的业务场景。

对于超算最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供 GPU 桌面进行图形前后处理,完成一个闭环的业务场景。

对于大数据业务,QingCloud云平台提供的对象存储容量达 245PB,跟计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽有1.6T,能够保证大数据计算的超高性能。

对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。

有了云平台的多种存储服务,用户可以按照自己的业务来选择合适的存储类型,包括冷热类型的对象存储、全闪并行文件存储或者块存储等。

有了虚拟化技术的加持,青云可以快速为不同业务构建其所需的运行环境,随时可以切换 MPI、TensorFlow 或者 MapReduce 软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。

传统超算中心的使用及运营痛点如何解决?

用户在使用传统的超算中心时,需要提交一个申请,并且有人工审批的环节,当他得到审批通过后,还需要自己安装VPN客户端连接超算中心提供的登录节点。

青云EHPC超算云带来的一个最大的变化是,把传统的审批制度变成用户自服务的形式,用户随时可以自己到云平台注册账号,并且充值购买他需要的计算资源。

青云能让高性能计算“自服务”得以实现是因为“安全”做了三个改进: 计算、网络跟存储的租户隔离。因为云计算的虚拟化技术,青云天然就把计算、网络、存储对于每个租户在物理上及逻辑上做了很强的隔离。 青云管理节点跟计算节点分离。租户可以使用完全独享的登录节点,不必像以前那样跟别人共享。 除了传统的VPN接入,青云还能提供零信任客户端,让用户登录到超算中心的时候更便捷和安全。 青云保障安全的同时,还能让超算使用更灵活,这是由于青云提供了两种不同类型的超算集群:

偏传统的共享型超算集群。虽然青云的计算集群是共享的,但给用户的登录节点是独享的,所以用户自己软件的安装、执行、操作还是在自己的节点上,跟别的用户是没有关联的。

除了共享集群之外,青云还提供一种新的独享EHPC集群。这种EHPC集群能给用户一个root账号,用户使用会非常方便。一是不仅能自由地安装自己需要的系统软件,甚至切换超算平台的各种软件,比如前面提到AI相关的TensorFlow,或是大数据相关的Hadoop、MapReduce,用户可以自行安装。二是EHPC集群的节点是用户独享,使用时不需要排队,可以合理安排使用时间。三是EHPC集群的计算、存储和网络类型,用户可以根据自身特定的业务场景自由搭配。

以工业场景为例。青云在平台上也集成了工业仿真软件,能提供一站式的使用体验。求解集群能够提供弹性的算力,很快地完成求解运算,此外,青云还能提供桌面虚拟应用,让用户完成图形的前后处理,这样就可以覆盖到工业仿真软件的全流程。

超算中心在运营上有一个痛点,就是超算的业务都是短期、大规模的方式,比如1万个节点使用4个小时,这就会导致两个问题:一是经常出现突发业务,导致计算资源短缺,其他用户要用的时候需要长时间排队;二是业务少的时候会出现大量资源空置,造成成本浪费。

“青云的愿景是希望跟超算中心合作共建算力共享的算力网络。青云的EHPC平台不仅可以为超算中心私有化部署超算云平台,还可以为其连接全网算力提供外部资源支撑突发业务。当超算中心的资源空置时,也可以对外出售算力增加运营收入。”青云QingCloud 云平台&服务部高级总监陈海泉表示。

 

责任编辑:宋辰