分享

谢崇进:阿里巴巴数据中心光互连技术发展与展望

 万里长风9 2018-07-08

“本文根据2018年5月ODCC数据中心光网络技术大会谢崇进博士的演讲整理”

1、数据中心光互连技术挑战



       我们可以把数据中心看作是一台超级计算机,而数据中心网络也就是这台超级计算机的IO。网络连接服务器,提供机器和机器之间的通信。



     首先,网络互连性能会逐步成为计算性能发展的瓶颈。  

    高性能计算机的计算能力,从过去大概六十年,每一年半翻一番,2017年的超级计算机500强的第一名中国神威太湖之光的浮点数运算能力达到9.3亿亿次/秒。交换芯片发展会稍慢一些,性能每两年翻一番,2017年已经发布了12.8Tbps芯片。交换芯片互连的SERDES通信总线速率提升相对更慢,每3.6年翻一番,2017年速率达到50Gbps。

其次,网络互连的能耗效率同样是一个很大的挑战,


     因为传输一个比特比处理一个比特消耗能量大得多。

然后,成本压力越来越大。


      随着速率提升和互连距离的增加,光进铜退导致数据中心网络中光的部分成本占比越来越高。

最后,业界的标准化速度也越来越成为光互连技术的发展的瓶颈。

      目前,光互连技术三到四年换一代。而标准化组织的标准制定需要三四年,产业落地还要几年,整个过程大概需要六七年。互联网数据中心业务和网络发展是如此之快,经常面临标准没有完全制定就要部署的局面,这对整个行业来说都是很大的挑战。

2、阿里巴巴数据中心光互连技术发展


      阿里巴巴数据中心光互连主要包括服务器接入交换机互连两个部分。

      服务器接入部分,2013年开始规模部署10G,采用SFP+的AOC线缆;2017年规模部署25G,采用SFP28的AOC线缆;2019年开始将尝试100G,并根据产业发展情况2020年或更晚进行规模部署,100G服务器接入将考虑100G AOC线缆,SFP-DD封装方案。

     交换机互连部分,2013年开始规模部署QSFP+的40G光模块,2017年规模部署QSFP28的100G光模块,2019年开始尝试QSFP-DD的400G光模块。


       服务器接入使用10G 、25G AOC线缆通常距离在30米内。

      40G光模块主要采用 eSR,可以支持300m距离覆盖90%以上的链路;超出距离的链路采用LR,可以支持到十公里距离。其实数据中心内部互连不需要十公里,两公里就够了,因此LR的技术会逐步被成本更优技术方案取代。

       100G光模块的技术比较多,IEEE标准化的只有SR4和LR4,其它都是MSA组织的标准。MSFT和Facebook明确说从100G开始不采用多模技术,但综合考虑是多模技术还是很有成本有优势的,特别是互连距离在100m以下非常竞争力,所以阿里巴巴采用混合多模和单模方案,100m以下采用多模,超出100m采用单模。谷歌也采用类似的方案。100G 单模主要采用CWDM4,可以支持2km距离。还可以考虑100G PSM4技术。如果从模块本身来看,PSM4成本要比CWDM4更占优势,但PSM4产业成熟度仍然是一个需要考虑的因素。


      3、阿里巴巴光互连技术选择考量点

阿里巴巴光互连技术选择的关键考量点有四个。

首先是技术性能,主要是速率和距离,这是刚性指标。

其次是技术成熟度,如产业链是不是足够成熟,市场供应是否充分,是否是IEEE标准或MSA标准。

然后是成本,不仅考虑光模块本身成本,还要考虑光纤以及综合的成本,光纤的生命周期。

最后是交付与运营,是否简单可靠。

4、400G时代阿里巴巴的思考


       IEEE于17年12月份刚刚完成400G的标准化,但在此之前业界已经进行了很多的技术研发。400G带来两个挑战,一个是100G到400G的4倍速率提升如何优雅的实现,另外一个是信号编码方式从NRZ变成PAM4带来的信号完整性问题。很多相关的技术指标业界仍然还在讨论,尚未完成确定。

      阿里巴巴在17年大规模部署100G后随即开展了下一代400G的研发,并对很多关键问题进行了思考和探索。

      多路并行是趋势。


      100G单通道技术上的挑战较大,因此在2017年阿里巴巴提出了适合服务器接入的SFP-DD的双通道解决方案,通过2个50G通道提供100G的接入能力。同时,业界也广泛认同8*50G的八通道QSFP-DD封装技术标准。同时,以太网联盟也将多通道纳入技术路线中了。


      100G SFP-DD AOC是最适合的下一代服务器接入方案。


       由于12.8T交换芯片的电接口是50G PAM4规格,因此当前广泛使用的QSFP28 100G的4*25G解决方案需要增加Gearbox做速率转换,这会导致功耗和成本的大幅增加。从网卡到交换机统一一致的50G通道速率及FEC是最为可行的解决方案。根据初步的评估,100G SFP-DD AOC需要满足功耗(不超过2.5w)、成本(不超过25G AOC的两倍)等方面的要求才可能得到大规模部署。


       QSFP-DD已经赢得400G光模块封装的竞争。


       数据中心400G光模块的主要封装形式有OSFP和QSFP-DD。过去两年这两种封装技术一直在竞争,但从今年OFC上看战争已经结束,QSFP-DD赢了,OSFP主要是Google和Arista支持,但QSFP-DD几乎得到其它所有用户和厂商的支持。QSFP-DD带宽密度比较高,散热能力目前也可以达到14W可以满足数据中心要求。


      On-board 400G用的可能性比较小。


      400G模块仍然希望是可插拔模块。

      400G SR4.2是比较适合阿里巴巴数据中心的多模技术。


       100m距离内仅使用4对多模光纤的SR4.2解决方案仍然具有很高的性价比。目前IEEE已经成立了SR4.2工作组,SR4.2标准中关键的部分是定义850nm之外的另一个VCSEL波长,从而产业界可以实现标准化落地,具备多个供应商。SR4.2的多波长解决方案也有利于下一代800G、1.6T等技术的发展,如果没有多波长技术多模解决方案将难以持续。和SR4.2对应的SR8需要采用8对光纤,光纤的成本的倍增有可能导致整个解决方案的性价比大大降低。


      400G DR4是阿里巴巴数据中心单模解决方案的首选。


       单模的DR4可以支持到500m。DR4的电接口是8×50G的PAM4,光接口是4×100G PAM4。DR4的成本很大程度上取决于激光器,DML激光器技术难度大商用时间难以确定,EML激光器技术就绪但成本比较高,硅光光子集成技术成本低但仍存在规模量产挑战。


 5、未来发展探讨


       预计2020年400G将规模商用,届时我们要考虑再下一代的技术发展。再下一代是800G还是1.6T,目前还很难判断。

       未来光互连速率提高的方法有两种,Scale up和Scale out。


      Scale up

    Scale-up方法是不断提高单波速率。一种方式是提高器件的带宽实现单波的波特率不断提升,如光模块从10G到100G模块尺寸不变但带宽增加10倍,但是从100G到1T这个方法将面临很大的挑战,甚至可能需要新的半导体材料的帮助。另外一种方式是同等波特率的基础上采用更高阶的调制格式,如50G、100G开始采用PAM4,后续可能会采用PAM8或者采用DMT,这种方法对波特率提升要求低,但对信号噪声和抖动要求会非常高,考虑到业界的CMOS技术进步很快,DSP的功能会更强大、功耗会更低,所以采用高阶调试格式的方式可能性会越来越大。


      Scale-out

    Scale-out方法是采用多条光纤和多个波长的多路并行扩展方法。通过光子集成技术可以减少光模块尺寸同时提高带宽密度,但光子集成的密度提升同样也面临上限挑战,由于光的集成有波长限制不可能做到比波长小,因此光子集成不像集成电路可以越做越小。


6、现场问答


——提问: 400G SR4.2,是倾向用不同方向的还是用同一个方向?另外如果网络升级的情况下,为什么不倾向于FR4,而是DR4?

——谢崇进:400G SR4.2目前还在标准化过程中,待确定另外一个VCSEL波长后,会进一步研究同向还是双向的方案,选择最优的方案。

    从阿里巴巴的情况看,数据中心光纤目前基本不存在复用的情况,因此可以抛开光纤的问题来考虑DR4和FR4的选择。FR4目前只能用EML激光器,成本会非常高,EML激光器能否量产到如此大的规模也可能是一个问题,因此DR4是更为适合的选择。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多