分享

Mellanox Gilad Shainer:如何在网络高速公路上成为一名老司机?丨首席问答官

 科技云报道 2022-10-13 发布于江苏

首席问答官是科技云报道推出的全新音频栏目,我们将邀请行业内炙手可热的专家,回答大家普遍关心的问题。

在这里,我们遥望科技的前沿,直面行业的困境,交换有趣的灵魂,关注独树一帜的观点。每期精选一个主题,集百家之所长,积少成多,你将对科技趋势洞若明火。

本期话题

如何在网络高速公路上成为一名老司机?

Gilad是高速网络领域的“老司机”,拥有10余年高速网络领域的技术市场、运营管理经验。早年毕业于毕业于以色列理工学院的电子工程硕士学位。在高速网络领域有很多专利,并且对PCI-SIG、PCI-X以及PCIe等众多标准、规格的制定作出了贡献。

Gilad作为本期的首席问答官,他将分享网络领域的相关经验。

以下为音频中文版文字翻译:

大家好,我是Gilad Shainer,Mellanox公司市场部副总裁。今天我想和大家分享的是搭建最新的数据中心需要什么样的以太网技术。

当前的世界是一个数据时代,如何能更快甚至实时的分析不断增长的数据,直接关系到一个公司新产品和业务的开发,甚至影响到竞争力。

所以,市场正在由10GE和40GE快速向25GE和100GE过渡,基于25GE和100GE的基础架构可以提供2.5倍更高的性能,但是保持了和10GE和40GE同样甚至更低的TCO(总体拥有成本)。

不仅如此,以太网正在成为存储网络的第一选择。随着越来越多的数据被存储到了云端,以及新的存储技术的普及,诸如横向扩展(Scale Out)存储和超融合存储,传统基于光纤(FC)的存储产品正在淡出市场,基于以太存储矩阵(ESF, Ethernet Storage Fabric)技术的网络架构已成为默认的存储配置。

存储磁盘的性能在近几年来得到了飞速的发展,仅仅几块NVMe闪存就需要消耗10GB/s的带宽。当你在设计横向扩展(Scale Out)存储系统的时候,需要用高速的网络来连接高速存储,更需要高效和智能的Ethernet Storage Fabric来在网络中传输数据。

越来越多的用户不在愿意停留在过去的网络紧耦合方式,人们在寻找更大的网络灵活性。开放以太网交换机(Open Ethernet Switch)和在以太网交换机上提供灵活性就是两种趋势,如Onyx,Sonic,Cumulus,SwitchDev等就是基于这两种趋势的不同实现。这个变革让数据中心可以适合自己选择最佳的方案。

随着SDN的普及,VXLAN已凭借其简单易用和高互操作性的优势成为了数据中心中主流的Overlay网络,曾经有过多种SDN技术尝试过将物理网络和逻辑网络解耦,VXLAN最后成为了主流,可以解决数据中心的大多数问题。

现在最先进的以太网卡,如Mellanox公司的ConnectX系列网卡,可以通过网卡硬件来加速网络的性能;Mellanox公司的Spectrum系列的以太网交接机可以支持更多的VXLAN功能,提供超过其他同类产品10倍以上的性能。


AI(人工智能)应用需要处理大量的数据,在AI集群中的所有计算单元需要共享这些数据,所以你需要更快的数据通道,更低的延迟和加速引擎,比如用RDMA技术和GPU Direct技术来提升AI系统的性能。

Mellanox的AI网络解决方案已经被广泛地用到了NVIDIA,Facebook,百度,京东,Uber以及更多其他公司的AI系统当中,Mellanox公司一直致力于和我们的客户一起合作来开发面向下一代AI技术的系统,现已在很多当前主流的AI框架中展现出了杰出的性能。

延展话题

此次科技云报道整理了首席问答官 Gilad Shainer对于高速网络行业的其他观点,以飨读者。

Q: 人工智能、物联网的实现都依赖于高速网络,面向未来的网络应该具备哪些特性?

A:随着人工智能和物联网的发展,单台服务器或存储的性能已经没有办法满足应用的需求,这就要求搭建基于Scale Out架构的系统,当数据中心走向Scale Out架构的时候,网络就成为了数据中心性能的关键。为了提升数据中心的性能,未来的网络应该有如下特点:

高转发性能和扩展性能。在Scale Out数据中心,往往会有3层或者4层的交换网络,点到点之间的通讯需要经过5次或7次的转发,高转发性能直接关系到点到点的通讯性能。高扩展性直接影响到大规模集群的效率,我们在追求接近于线速的扩展性,低扩展性则会导致大量能源的浪费。

网络和计算分离。所有通讯工作需要由网络来承担,计算工作由CPU来承担。随着数据中心的规模越来越多,采用TCP/IP的通讯方式正在吞噬越来越多的CPU资源,40%到50%甚至更多的CPU资源被用到了通讯上,导致应用不能得到足够的计算资源。这也是为什么RDMA通讯变得越来越流行的主要原因。

 网络的智能化。如何得到最佳的ROI是数据中心拥有者的永远不变的追求,如何能充分的优化网络和计算的资源是提升ROI的关键。网络设备除了通讯之外还可以帮助在其他方面,比如将安全保障放在网络上,用网络来实现存储协议的卸载… 智能网卡会是未来的趋势。

交换网络的简单化,高性能/低功耗化和易管理化。数据中心的拥有者正在逐渐走向成熟,人们已经认识到网络中什么样的软件是必须的和什么样的软件他们根本不会用到,对于不会用到的软件,他们会选择彻底屏蔽掉,从而实现网络的最大稳定性。

功耗是个永远不变的话题,采用低功耗高性能的网络设备可以直接受益。现在的数据中心往往会有多个应用同时运行在同一个物理链路上,如何能有效的监控每个应用,让他们互不干涉同时又能达到最大的性能,Telemetry技术的竞争变成网络中非常重要的一部分。

Q: 随着云计算的普及,数据中心对网络带宽要求越来越高,还有哪些网络技术难题需要完善?

A:从硬件技术来讲,Serdes技术变成了制约网络带宽的主要因素。随着带宽的提升,如何能在越来越高的带宽的同时又能让硬件信号能传输的和之前一样远,这是所有芯片厂商面临的挑战,未来会更加严峻。

这也是为什么所有的网络厂商都走向了提供端到端的解决方案的原因,不同厂商的产品在如此高速的通讯过程中能实现好的互操作性变得越来越难。

从软件技术来讲,随着数据中心规模的增大,之前的很多传统软件已变成制约网络性能的瓶颈。

比如传统的ECMP协议在处理大规模数据中心中的负载均衡时会损失大量的网络性能,动态ECMP协议的出现可以大幅度提升负载均衡的性能。

再比如在SDN网络里不同SDN控制器的兼容性问题一直困扰着数据中心的管理者们,EVPN技术的出现可以实现Controllerless。

从网络层面来讲,现在数据中心的应用种类繁多,当不同的应用运行在网络中的时候,网络的拥塞势必无法避免,如何能有效的解决拥塞问题,减少由于网络拥塞带来的丢包,这是所有交换机和网卡厂商面临的共同问题和挑战。IEEE已经定义了一系列的规范,但是如何能有效的用到网络中来,还有长路要走。

Q: 在部署物联网解决方案时,如何解决传统设备间的无缝且安全的互连?

A:在追求高性能数据中心的同时,实现与传统设备的无缝互联是必须面临的问题。有效的实现网络中多种流量的有效隔离,互不干扰,同时又要面向新的应用的高性能需求,每家网络厂商都在解决这个问题。

RDMA 技术可以提升性能,但是需要新的硬件支持,TCP技术可以和传统设备保持无缝连接,但是性能太差。

所以如何能有效的将RDMATCP部署在同一个系统里,满足性能和相容性的要求,实现无损以太网和有损以太网的并存,是未来的趋势但也是考验网络厂商实力的关键。

Q:不同速率的高速网络如何分别满足不同行业企业用户的需求?

A:应用永远在追求更高的性能,CPU由单核到了多核,服务器由SMP到了集群,存储由Scale Up到了Scale Out,网络由机框式交换机到了Spine/Leaf架构,所有的改变都来源于应用的推动。

相信高速的网络会带来更好的性能或是提供给用户提升性能的空间。性价比和未来对性能的期望值应该是选择高速网络的决定因素。

About Mellanox

Mellanox是一家在全球范围内为服务器和存储提供端到端InfiniBand和以太网互联解决方案的领军企业。Mellanox互连解决方案通过低延迟、高吞吐量的强大性能,可以极大的提升数据中心效率,在应用和系统之间快速的传递数据,提升系统可用性。

首席问答官栏目将陆续邀请云计算、大数据、人工智能、区块链等领域知名企业相关负责人,就大家关心的话题内容进行访谈。

如果你有特别感兴趣的问题,欢迎在评论区留言,也许某个CEO正在等待回答你的问题。

如果企业刚好想回答问题,欢迎主动联系我们采访,也许某个用户等这个答案很久了。

【科技云报道原创】

转载请注明“科技云报道”并附本文链接

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多