随着智能计算时代的到来,高性能计算正在与人工智能、大数据融合发展,尤其是使用成本的不断下降,其应用领域也从具有国家战略意义石油勘探、航空航天和高冷的科学计算领域向更广泛的国民经济主战场快速扩张。
在高性能计算深入到各行各业进程中,如何让超级计算更加智能化,让超算应用更加便捷?而随着国家提出“双碳”战略决策后,如何为客户提升算力的同时解决效能问题?
联泰集群(北京)科技有限责任公司(以下简称:联泰集群)通过加强多场景产品的研发能力,将算力与场景协同、技术与业务深度融合,通过整体方案创新可实现价值创新。
场景驱动 多元算力释放数据价值
2018年中科院计算所、中国计算机学会高性能计算专委会秘书长张云泉提出,算力经济已经登上历史舞台并成为数字中国发展的关键。
中国TOP100应用领域趋势图(2002–2021)数据来源:《2021年中国高性能计算机发展现状分析与展望》
从2021年11月发布的中国TOP100的行业应用领域趋势图和Linpack性能份额图来看,除了超算中心、人工智能、科学计算,高性能计算逐渐在生物制药、基因测序、动漫渲染、数字电影、数据挖掘、金融分析以及互联网服务等领域中扩展。
中国TOP 100行业应用领域机器Linpack市场份额图(2021.11)数据来源:《2021年中国高性能计算机发展现状分析与展望》
应用领域新增算力服务,充分反映了在大数据、人工智能算法和算力三驾马车协同配合时代中算力经济的发展,算力的多样化正成为高性能计算领域的发展趋势,尤其是随着AI在各行业领域的不断深化,AI应用的场景不断丰富,而不同的应用场景往往意味着需要不同的计算场景。
联泰集群硬件产品技术总监刘振锋
联泰集群硬件产品技术总监刘振锋表示,从公司成立以来,联泰集群的算力服务战略都随着高性能计算用户的应用场景创新而展开,将研发、硬件产品制造、软件应用赋能平台,高性能集群系统维护锁定在行业场景中,真正关注客户的具体业务。
首先,从产品丰富性来看,随着对高性能计算行业的深入了解以及对行业发展趋势的洞察,联泰集群推出异构计算产品、存储产品、工作站以及集群系统为主的4大类产品体系,覆盖互联网行业、大数据行业、云计算行业以及高性能计算等行业客户的不同算力场景。
在科学计算领域,联泰集群为客户打造了高性能的基于Intel 架构的CPU+GPU 异构集群方案和基于AMD、ARM的科学计算集群方案,还有可用于集群管理节点和通用计算的S223系列服务器,用于高性能集群计算节点的S223Q,S222Q系列高密度服务器和用于并行存储系统的S423系列存储服务器和S493J等存储扩展柜产品。
而对于目前的机器学习、人工智能开发、算法训练,联泰集群通过G4228,G422X系列方案来满足这些场景需求,同时还有针对视频转接码而推出的G222X 服务器,以及专为科研、高校在办公环境使用的高性能静音工作站产品水晶W7224等。
目前,国产化产业已经成为中国重塑国际技术体系与标准的发力点。国产化替代是产业结构升级过程中必经的一个阶段,国产化技术方案和千行百业的业务集成融合需要有强大的技术储备,联泰集群拥有了为客户打造多芯片多平台底层硬件开发能力,国产系统的基础软件服务能力。
目前联泰集群基于国产飞腾 64 核处理器 FT-2000+ / S2500设计开发的单路、双路国产服务器,具备独特的安全性,适用于金融、税务、交通、能源、电信等诸多行业的信息化系统。基于国产海光 5000 、7000 处理器推出的2U 双路服务器。性能至强、配置多样,灵活扩展,轻松应对高速发展的新型数据中心工作负载。适用于计算集群部署、云计算、虚拟化部署、 大数据分析等应用场景。
第二,算力服务的本质是将具体的计算软件和硬件统一地抽象为执行计算的能力。
联泰集群通过软件加硬件的完整解决方案满足客户的计算需求,全面提升用户在适用AI过程中的体验,其应用赋能平台基于计算、存储、网络等硬件资源之上提供软件服务,包括集群操作系统、监控分析系统、资源管理系统、文件存储系统,实现账户的管理,资源的管理,以及系统监控等运维管理功能。
同时,联泰集群的LtAI异构资源管理平台实现AI计算资源的数据管理,模型管理、算法管理,可降低AI应用门槛;云管平台很好的实现了计算资源的统一管理及资源利旧,并使之云化,提供统一的图形管理界面,简化了管理人员操作难度。
深刻洞察行业需求,始终以“客户体验”为核心,联泰集群不断赢得高性能计算产业界的认可,在2019年HPC china大会上,联泰集群计算平台和赋能平台摘得了“推动高性能集群应用普及先锋奖”。在2020年国际人工智能性能排行榜AIPerf500 人工智能算力榜,联泰集群设计和部署的三套算力系统包揽第二、第 三、第四名,2021年联泰集群产品分列三、四、五名。
创新驱动 液冷技术构建高价值数据中心
当数字中国和“双碳”等国家战略对于算力提出高质量需求,数据中心行业能耗问题再次受到社会各界广泛关注,低碳与可持续发展也成为高价值数据中心的重要参考指标。越来越多的服务器厂家和云计算服务商开始采用液体冷却技术来解决数据机房IT计算设备的散热。
刘振锋表示,基于液冷技术的前期的探索和实践,联泰集群可根据客户不同应用场景提供相应的液冷方案,提升服务器的使用效率和稳定性,助力客户构建绿色数据中心。
在具有冷却水应用的数据中心或者服务器机房,联泰集群的机柜级液冷模块通过液冷—液冷转换单元,可安装在标准机架内,液冷分配模块以及对应的管线,单机柜制冷量可达40-80Kw,42U机柜可支持38-76个节点。
联泰集群最新发布的液冷GPU服务器G8228-LC,支持机柜式部署,整机采用全新的散热系统,CPU与GPU均采用液冷散热,通过冷液将GPU计算节点的热量带到CDU节点进行散热,在满足散热需求的同时整机满载72dBA左右,较普通风冷GPU服务器噪音降低20%,尽可能的降低噪音危害。
而针对标准机架服务器,联泰集群机柜级液冷模块通过1个2U的液冷转风冷转换单元,支持高功耗CPU、GPU,可以最大化利用现有数据中心制冷设施。
尤其高速计算的应用领域,如:银行证券结算业务、芯片设计与仿真、有限元分析与计算、图形计算与渲染、其他高负载计算应用等,同样联泰集群最新发布的高频液冷服务器S213TB采用这样的模块,在超频的同时最大限度保证了服务器的稳定性。
针对高密度机型比如2U4节点或者1U2节点服务器以及主流1U服务器, 联泰集群系统级液冷模块主要解决CPU的散热,将2个CPU做为一个散热通道,可以支持两颗205W的CPU散热,比如目前联泰集群的Intel 、AMD平台服务器产品S223Q,S222Q、S122U等都拥有对应的也冷解决方案。
而针对发热量大的GPU服务器,联泰集群通过系统级液冷模块,在服务器内部做成2路散热通道,每一路给一个CPU和2个GPU进行液冷散热,可以支持到205W的CPU散热和300W的GPU散热。
针对高端双路8个NVLINK GPU的服务器,在服务器内部CPU节点做为一个散热通道,提供可以满足两颗205W的CPU的散热能力;同时每两个GPU做为一个散热通道,共提供4个GPU散热通道,每个GPU散热通道可以满足2颗300W的GPU的散热能力。
在全面数字化的时代,数据中心技术架构变得更加精细,基于不同应用环境,联泰集群加强液冷技术创新实践,助力传统数据中心向可持续发展数据中心转型。
快速决策 深度定制加速与用户互动
离客户最近就越懂客户业务场景,在刘振锋看来,除了快速反应,联泰集群针对客户应用场景的痛点,可实现为用户深度定制。
一方面,联泰集群不仅具备定制优化工作站、服务器硬件设计、制造能力,还具备系统平台及应用的创新的软件开发能力。比如针对GPU计算场景中需要本地低成本大容量存储的内置存储和热插拔存储方案等,通过客制化的开发设计并不断优化解决方案,落地不同行业应用。
另一方面,联泰集群可围绕客户需求从设计到研发再到后期测试整个流程实现定制化,通过流程保障定制化方案的针对性,实现深度开发,整体推进效率更高。
现在CPU+GPU计算能力的提升,以及机器学习,人工智能行业的兴起,科研,高校教研室,实验室对高新能计算的需求也越来越大,但当前主流产品设计主要面向数据中心级,很多科研和高校的教研室、项目组没有单独的数据机房,如果将服务器放在学校的数据机房,服务器的运维、管理相对复杂;如果把机器放到办公室中,科研人员无法忍受机器的噪音,联泰集群采用液冷方案的水晶超静音工作站由此而诞生,可消除主动噪音源。
长期扎根高性能计算领域,联泰集群不断提升了团队的技术能力和服务能力,不断为清华大学、北京大学、中国科学院、南京大学等教育行业以及互联网、医疗、制造等客户交付高度定制、绿色高效软硬一体化高性能方案,帮助客户在行业应用过程中能够有据可依,进而实现业务价值的提升,赋能实体经济,加速构建新发展格局。