光,让云计算跑得更快
一、跑在“光”上的云核算✦
云核算是跑在光上的。今日的云核算需求海量的数据传输,传输一个比特的数据,比处理一个比特的数据要耗费更多的能量和本钱,一台云核算服务器和外界每秒需求交换100亿字符的数据,而核算才干以每两年翻一番的速度向前开展,如此大的数据传输,传统的电的传输办法已无法处理,今日,数据中心内几乎一切服务器间的数据传输都经过光来进行。
图1|光互联系统
数据在“光”上的传输,需求经过“光模块”来完结。“光模块”也叫光收发器,模块的发端把电信号转换成光信号,经过光纤把光信号传送到接受地,在模块收端把光信号转换成电信号,一般收发一体。光模块的传输速率从早期的155M,622M逐步开展到10G,40G,100G,200G,400G。曾经的光模块主要是用在运营商的电信网络中,十几年前,互联网公司的数据中心核算网络成为光模块的最大用户。数据中心核算网络和电信网络有很大不同,具有设备的端口密度大、数量多、数据链路短、演进速度快等特点,所以,数据中心光模块的开展方向是小型化,低功耗,低本钱,以及技能的快速演进迭代。
图2|数据中心光模块
因为阿里云核算的开展需求,曩昔10年阿里数据中心网络带宽(bisectional bandwidth)增长了1000倍,下图展示了近几年来阿里巴巴数据中心网络所运用的光模块计划,光模块平均每三年左右更新一代。
图3|阿里巴巴数据中心光模块计划
(注:ASW:接入交换机;PSW:汇聚交换机;DSW:集群中心交换机;Core:园区中心交换机)
未来5G、边际云、人工智能、物联网、产业互联网、区块链等为代表的新技能的快速开展将对云核算提出新的要求,将需求新的光技能来支持数据的高效快速传输。
二、从关闭走向敞开
早期,阿里巴巴在建造和运营数据中心网络的时分,向网络设备商购买整套处理计划,“光模块”作为网络设备的一个组件,被关闭在整个网络的黑盒子里。黑盒子一样的关闭系统,不仅阻挡了对系统的整体规划和优化,也使得公司难以进行快速技能迭代和进一步提高运营才干。如何处理这一窘境?树立研发技能才干、从关闭系统走向敞开开源系统,才干充分利用和全方位地提高数据中心网络的才干,促进职业的竞赛和技能的开展。
2015年,阿里巴巴技能保障部成立了光网络技能团队,开端发动敞开“光模块”的作业。这个作业的第一步,就是要把“光模块”从黑盒子的网络设备中解放出来,树立起光互连计划的规划、认证、集成的才干,打造敞开的网络系统。
图4|光模块/AOC的认证和集成
经过短短半年时刻,专业的光网络实验室建成了,高速示波器、以太网流量仪、温湿度箱等测验外表一应俱全,并在2016年第一批敞开解耦的40G光模块开端上线试运转。经过一年的考验,2017年40G和100G光模块开端在阿里巴巴的数据中心网络里全面布置,且可做到两到三个月内完结一款光模块的引进。此时,阿里巴巴成为了国内第一个大批量使用100G网络的云核算/互联网公司,在世界上也处于领先地位。
图5|丰厚的测验设备和制具
阿里巴巴不仅自己快速建造了敞开光模块的各项技能才干,也积极参与敞开安排,把技能才干共享给产业界。2017年,阿里巴巴主导的100G光模块和25G AOC的技能规范在ODCC发布,把敞开数据中心光模块的理念和经验推广到产业的上下游,让产业的一切参与者都收益。
万事开头难,敞开光模块总算走出了坚实的第一步。
三、应战和应对
阿里巴巴数据中心规模敏捷生长,短短2年时刻,引进的敞开光模块的线上数量,从十万级到达到百万级,从主要用在数据中心集群网络,到覆盖整个数据中心的一切网络设备,与此同时,阿里光网络团队也开端面临越来越大的应战:
1. 数量很多的网络设备和光模块型号
只是100G的网络设备型号都多达100款,涵盖各种人物的交换机、路由器、服务器、分流器等多种设备,而且绝大多数设备是商用设备。不同厂家的设备在光模块接口规划上的规范不一致,芯片计划不一样,软硬件规划不一样,规划余量和质量操控水平不一样,光模块的类型很多,光100G光模块就有SR4、CWDM4、LR4、ER4等多种规范和技能计划,别离都有多个厂家供应,而且咱们每年还会引进新的芯片计划。所以构成的排列组合数量很多,纷繁复杂。
2. 对链路质量越来越敏感的事务
光模块的速率越来越高,相同链路的间歇性颤动或许持续误码导致的数据丢掉是之前的很多倍,事务对光链路质量越来越敏感。所以,事务复杂性对物理层稳定性要求变高和高速的光电信号质量确保的难度变大成为了不行谐和的对立。
3. 光模块的失功率
在线运转的光模块数量达到了百万数量等级,这个数量等级对光模块的失功率也变得越来越敏感。千分之一的失功率的添加就会导致几千条链路故障,几千个光模块需求替换,引发网络故障的概率也会大幅上升。
阿里光网络团队开端意识到,自主界说光模块技能规范,认证、集成敞开的光模块到网络中只是是第一步。整个技能系统还未构成闭环,还缺少质量管控和运维系统来把质量问题反馈到研发端。
数据中心光模块的数量极端巨大,而且涣散在全世界的各个机房当中,依靠人力难以获取到这些光模块的运转状况,当发现光模块替换数量异常的时分,也难以快速找到相关性。这将对咱们的网络质量发生巨大的危险和应战。
为了应对这靠人力不行为的应战,管控好海量光模块的运转质量,必须在认证测验阶段严厉规范光模块的可靠性测验,在批量布置阶段规范光模块的出厂测验,在上线运转阶段经过机器大数据实时监控运转质量,充分凭借机器的力量打造完好的系统来完结这不行能的任务。
✔ 认证阶段质量管理✦
Telcordia GR468 可靠性规范被职业广泛运用,其中规定的测验项可以确保光模块的鲁棒性以及根本的可靠性,例如HTOL(高温老化)、uBHD(双85)、TC(温循)、HTS高温存储等测验项目。在GR468框架下,阿里依据数据中心实际运用状况,会拟定一些测验项目,例如双85后叠加168小时的高温老化,模仿光模块在高温高湿地域存储后在网络交换机上作业一段时刻后是否会失效。
“尽信书则不如无书”,在规范的基础上结合咱们的实际使用对可靠性测验进行弥补,才干真实的操控光模块质量,构成理论结合实际的办法论。
✔ 批量布置的质量管理✦
即便在研发认证阶段进行了完好的可靠性测验,也不免会在后续大批量出产制造过程中的管控不力所发生的批次质量问题。因此,在批量布置阶段,仍需求对批量出产的光模块进行抽样性的可靠性管控。例如针对激光器的eBI(extended Burn in)扩展老化,验证Burn in条件对于筛选激光器早期失效(Infant mortality failure)的有效性;ORM(On-going reliability monitor),选用必定的抽样方法对出货产品进行非破坏性的可靠性验证,目的是监控和拦截因为出产动摇导致的产品质量动摇;IST (In System Test) 模块出货前和阿里自研交换机的系统集成测验,选用必定的抽样方法对模块进行抽样验证系统兼容性,贯穿整个产品的生命周期。
✔ 线上运维系统✦
作为海量数据中心光模块的运营者,当你听到某个事务因为光链路质量问题受到影响;当你看到这个月替换下来的光模块数量陡然添加时;当你听到建造同学抱怨因为光链路质量无法交付时…….,而你却只能靠手敲着命令行去查问题,那种无力感……
光网络技能团队早早预判到规模化数据中心所带来的这种困局,提早研发了根据大数据的光模块数字智能化渠道,实时收集光模块的各种作业参数和链路质量数据,并快速整理出相关性,无论是在发现问题和定位问题上都快人一步。正是因为这套系统的树立,让运营同学可以运筹帷幄,沉着面临百万级的光模块运转。
图6|光模块数字智能化渠道
四、展望未来✦
人类对核算力的寻求不会停止,核算力仍然以每两年翻一倍的速度向前开展,数据和核算的有机结合将会给云核算带来更大的价值。这是机遇,但也在技能上带来很大的应战,如何利用光技能使数据传输更简略、让云核算跑的更快现已深化咱们每天的作业中。
唯有深耕技能、不断创新,才干让云核算持续 “光”速开展!
我有话说: