没错,阿里巴巴背后的AI“发动机”就是它
随着AI应用百花齐放,GPU算力需求井喷式增长,今天AI与云“搭配”已成为行业共识,AI算力与云原生基础设施的发展也紧密相关。在日前举行的“第十六届中国IDC产业年度大典“上,阿里云基础设施正式发布磐久EFlops智算集群——阿里巴巴业务背后的AI“算力发动机”也正式走向台前。
“计算”And“智算”,算力也有“多模态”
充足的算力,配合机器学习平台PAI,为AI构建了十分友好的发展环境,使阿里巴巴AI应用百花齐放的同时,也为超级模型等技术探索提供了有力的支撑。
一路向“前” “算力”的发展方向
无人驾驶、自然语言、图像识别……算力不仅为AI应用提供发展“动力”, 在科研领域也将发挥更加巨大的价值。
科学家正在使用AI技术,更高效地对蛋白质的三维折叠结构进行预测,为新一代的疾病防治和药物开发进行探索;AI也正在地质监测、即时天气预测、甚至是暗物质探索等多学科的科研课题中发挥越来越重要的作用。
相信在不远的未来将进入“第五计算范式”时代,通过多种异构处理器应用和计算系统架构设计,提供差异化算力,为不同的应用场景提供针对性的算力方案。
计算类型 |
计算特点 |
高性能计算(HPC) |
精确计算科学 |
大数据(BigData)+AI |
数据科学+模糊计算科学 |
大数据(BigData)+AI+高性能计算(HPC) |
数据科学+模糊计算科学+精确计算科学 |
• HPC(高性能计算)“第三计算范式”;大数据“第四计算范式”;HPC+AI+大数据“第五计算范式”。
中国工程院院士、清华大学郑纬民教授最近在《人民邮电报》撰文指出:算力和数据是元宇宙和数字经济发展的基础,算力是元宇宙的基础要素,也是衡量数字经济发展的晴雨表。未来,云计算将推动算力成为像水电一样的基础资源,并以服务的形式直接赋能给最终用户。
传统的大数据计算(如Hadoop)以单向的、流式的处理流程为主,每次计算任务会有多个相互独立的子任务,单位时间内完成多少任务(吞吐量、并发量),是整个计算系统的重点指标。而AI计算,每个计算任务的子任务需要周期性进行同步,下一次计算迭代的启动会依赖上一次计算迭代的完成,单个任务的完成时间是重要指标。AI业务对计算系统的算力、通信能力等有极高的性能要求。
阿里云基础设施大计算集群部总监 曹政
在“阿里云磐久液冷基础设施”专场,他表示:
“高算力集群是推动AI应用发展的发动机,集群体系架构一直在创新,阿里巴巴从2018年开始研发AI集群,为AI业务提供超大规模算力。通过实践和总结,我们认为算力的供给、集群的设计,应从应用出发。”
阿里巴巴AI算力规模化部署应用实践
2018年,阿里巴巴开始研发AI集群,2019年建成0.5 EFlops(TF32)的单GPU集群,2021年已经升级到“万卡”规模,峰值算力达到了1.5 EFlops(TF32)。AI基础设施的持续投资保障了算力供给,更为AI技术发展提供了充足的“动力”。结合内部三年多超大规模AI集群应用实践,阿里巴巴给出了规模化应用AI集群的最优方案。
应用需求是集群设计的指挥棒
阿里巴巴业务场景丰富多样,涵盖视觉、图像、语音、推荐、搜索等多类型AI应用,向外延伸还有医疗健康、数字化社会等综合型应用。以金融为例,部分金融场景的AI业务需要快速实现模型收敛来完成训练,需要为异构算力部件拓展网络资源。而自动驾驶领域则是HPC和AI的叠加,可同时满足大量的模拟仿真和AI需求。
不同的算力集成方案,可以在精度、加速器应用、通讯需求等方面有很大的差异,因此,我们对AI的集群架构提出了针对性的软硬件设计方案。
软硬协同“合而为一” 释放峰值算力
在AI集群层面,通讯的碰撞是计算延迟的主要来源,除了架设集群通信的“高速公路”外,还需要进行合理的通讯调度,避免“堵车”。阿里巴巴通过自研通信库,结合自研硬件,对“万卡”规模的AI集群提供无拥塞、高性能的集群通讯能力。
在一些AI计算任务里,我们发现GPU耗费了大量时间在等待数据加载,真正的计算时间只有很少一部分,不仅影响计算任务的处理时长,也造成严重的计算资源损耗。为解决这个问题,阿里巴巴对AI计算特征进行挖掘,预测数据的最优路径,提前进行“数据预热”。在超大规模集群中,也可以做到资源倍增,计算加速一倍的效果。
AI集群中,GPU是非常重要的异构算力硬件,阿里巴巴通过自研的GPU资源虚拟化技术,对GPU资源进行细粒度切分、调度,以充分释放GPU算力,并且同时具备升级成本极低的特点。经过实际应用验证,GPU虚拟化使资源利用率提升3倍,节省60%+的GPU资源。不仅如此,虚拟化能力在兼容国产供应链方面也具备重要意义。
我有话说: