没错,阿里巴巴背后的AI“发动机”就是它

作者阿里云代理 文章分类 分类:新闻快递 阅读次数 已被围观 886

随着AI应用百花齐放,GPU算力需求井喷式增长,今天AI与云“搭配”已成为行业共识,AI算力与云原生基础设施的发展也紧密相关。在日前举行的“第十六届中国IDC产业年度大典“上,阿里云基础设施正式发布磐久EFlops智算集群——阿里巴巴业务背后的AI“算力发动机”也正式走向台前。

“计算”And“智算”,算力也有“多模态”


充足的算力,配合机器学习平台PAI,为AI构建了十分友好的发展环境,使阿里巴巴AI应用百花齐放的同时,也为超级模型等技术探索提供了有力的支撑。


一路向“前” “算力”的发展方向


无人驾驶、自然语言、图像识别……算力不仅为AI应用提供发展“动力”, 在科研领域也将发挥更加巨大的价值。

科学家正在使用AI技术,更高效地对蛋白质的三维折叠结构进行预测,为新一代的疾病防治和药物开发进行探索;AI也正在地质监测、即时天气预测、甚至是暗物质探索等多学科的科研课题中发挥越来越重要的作用。

相信在不远的未来将进入“第五计算范式”时代,通过多种异构处理器应用和计算系统架构设计,提供差异化算力,为不同的应用场景提供针对性的算力方案。


计算类型

计算特点

高性能计算(HPC)

精确计算科学

大数据(BigData)+AI

数据科学+模糊计算科学

大数据(BigData)+AI+高性能计算(HPC)

数据科学+模糊计算科学+精确计算科学

• HPC(高性能计算)“第三计算范式”;大数据“第四计算范式”;HPC+AI+大数据“第五计算范式”。

中国工程院院士、清华大学郑纬民教授最近在《人民邮电报》撰文指出:算力和数据是元宇宙和数字经济发展的基础算力是元宇宙的基础要素也是衡量数字经济发展的晴雨表未来云计算将推动算力成为像水电一样的基础资源并以服务的形式直接赋能给最终用户


传统的大数据计算(如Hadoop)以单向的、流式的处理流程为主,每次计算任务会有多个相互独立的子任务,单位时间内完成多少任务(吞吐量、并发量),是整个计算系统的重点指标。而AI计算,每个计算任务的子任务需要周期性进行同步,下一次计算迭代的启动会依赖上一次计算迭代的完成,单个任务的完成时间是重要指标。AI业务对计算系统的算力、通信能力等有极高的性能要求。阿里云基础设施大计算集群部总监 曹政

阿里云基础设施大计算集群部总监  曹政

在“阿里云磐久液冷基础设施”专场,他表示:

“高算力集群是推动AI应用发展的发动机,集群体系架构一直在创新,阿里巴巴从2018年开始研发AI集群,为AI业务提供超大规模算力。通过实践和总结,我们认为算力的供给、集群的设计,应从应用出发。”


阿里巴巴AI算力规模化部署应用实践




2018年,阿里巴巴开始研发AI集群,2019年建成0.5 EFlops(TF32)的单GPU集群,2021年已经升级到“万卡”规模,峰值算力达到了1.5 EFlops(TF32)。AI基础设施的持续投资保障了算力供给,更为AI技术发展提供了充足的“动力”。结合内部三年多超大规模AI集群应用实践,阿里巴巴给出了规模化应用AI集群的最优方案。

应用需求是集群设计的指挥棒

阿里巴巴业务场景丰富多样,涵盖视觉、图像、语音、推荐、搜索等多类型AI应用,向外延伸还有医疗健康、数字化社会等综合型应用。以金融为例,部分金融场景的AI业务需要快速实现模型收敛来完成训练,需要为异构算力部件拓展网络资源。而自动驾驶领域则是HPC和AI的叠加,可同时满足大量的模拟仿真和AI需求。

不同的算力集成方案,可以在精度、加速器应用、通讯需求等方面有很大的差异,因此,我们对AI的集群架构提出了针对性的软硬件设计方案

软硬协同“合而为一”  释放峰值算力

在AI集群层面,通讯的碰撞是计算延迟的主要来源,除了架设集群通信的“高速公路”外,还需要进行合理的通讯调度,避免“堵车”。阿里巴巴通过自研通信库结合自研硬件对“万卡”规模的AI集群提供无拥塞高性能的集群通讯能力

在一些AI计算任务里,我们发现GPU耗费了大量时间在等待数据加载,真正的计算时间只有很少一部分,不仅影响计算任务的处理时长,也造成严重的计算资源损耗。为解决这个问题,阿里巴巴对AI计算特征进行挖掘预测数据的最优路径提前进行“数据预热”。在超大规模集群中,也可以做到资源倍增,计算加速一倍的效果。

AI集群中,GPU是非常重要的异构算力硬件,阿里巴巴通过自研的GPU资源虚拟化技术,对GPU资源进行细粒度切分、调度,以充分释放GPU算力,并且同时具备升级成本极低的特点。经过实际应用验证,GPU虚拟化使资源利用率提升3倍,节省60%+的GPU资源。不仅如此,虚拟化能力在兼容国产供应链方面也具备重要意义。

 

 

 

本公司销售:阿里云新/老客户,只要购买阿里云,即可享受折上折优惠!>

我有话说: