2025厦门国际半导体及集成电路博览会

时间:2025年12月10-12日
地点:厦门国际会展中心

联系电话:李海菊 13161718173

距离开展

当前位置:主页 > 媒体中心 > 展会新闻 > >
展会新闻

悄然崛起的英伟达新对手

来源:2025厦门国际半导体及集成电路博览会        发布时间:2024-06-14

悄然崛起的英伟达新对手

展会名称:2024厦门国际半导体及集成电路博览会

时间:2024年12月12-14日

地点:厦门国际会展中心

展馆详细地址:思明区会展北路198号

英伟达都有哪些对手?


首选当然是AMD和英特尔,前者本身就有AI加速卡的业务,集CPU和GPU设计能力与一身,而后者呢,作为x86架构的奠基人,如今也涉足AI加速卡领域,可以见到它们所推出的产品不仅在参数上对标英伟达,还在定位与售价等方面发动了一轮又一轮的攻势。

而英伟达的客户与博通和Marvell组成统一战线后,也成了它的对手,不断推陈出新的自研定制芯片,开始取代传统的通用AI加速卡,让英伟达感受到了另一种压力。

而在网络领域,英伟达也迎来了自己的对手。

英伟达独占AI网络

进入21世纪以来,随着云计算、大数据的日益普及,数据中心得到了快速发展。而InfiniBand在其中发挥了很大的作用,尤其是从2023年开始,以ChatGPT为代表的大型AI模型依赖于InfiniBand,让这一网络技术的关注度进一步提升。

众所周知,现代数字计算机自诞生以来就一直采用冯·诺依曼体系结构,该体系结构中有CPU(算术逻辑单元和控制单元)、内存(RAM、硬盘)和I/O(输入/输出)设备。20世纪90年代初,为了支持越来越多的外部设备,Intel率先在标准PC架构中引入了外围组件互连(PCI)总线设计。

随后,互联网进入快速发展阶段,在线业务和用户规模的不断增长对IT系统容量提出了巨大挑战。在摩尔定律的支持下,CPU、内存、硬盘等部件都在飞速进步,而PCI总线的更新换代速度却比较慢,大大限制了I/O性能,成为了整个系统的瓶颈。

为了解决这个问题,Intel、微软和SUN牵头制定了“下一代I/O(NGIO)”技术标准,而IBM、康柏和惠普则牵头制定了“未来I/O(FIO)”,并于1998年联合制定了PCI-X标准。

1999 年,FIO 开发者论坛和 NGIO 论坛合并成立了InfiniBand 贸易协会 (IBTA)。很快,在2000年,InfiniBand架构规范1.0版本正式发布。InfiniBand诞生的目的就是为了取代PCI总线,它引入了RDMA协议,提供更低的延迟、更高的带宽、更高的可靠性,从而实现更强大的I/O性能。

同样在1999年5月,几位从英特尔和伽利略科技公司出走的员工在以色列成立了一家叫Mellanox的芯片公司, Mellanox 成立后加入了 NGIO,后来 NGIO 与 FIO 合并,Mellanox 也加入了 InfiniBand阵营,并于 2001 年推出了第一款 InfiniBand 产品。

而随着英特尔转向PCI Express(PCIe),以及微软退出InfiniBand,该网络技术开始转向计算机集群互联的应用领域,而新成立的Mellanox开始走上舞台,逐渐成为InfiniBand发展过程中的中坚力量。

InfiniBand虽然同时被英特尔和微软放弃,但它在新的领域中找到了增长点。2012年以后,随着高性能计算(HPC)需求的不断增长,InfiniBand技术不断取得长足进步,市场份额不断提升。2015年,InfiniBand技术在TOP500榜单中的份额首次突破50%,达到51.4%(257个系统)。这标志着InfiniBand技术首次成功挑战以太网技术,成为超级计算机首选的内部互连技术。

1.png

而Mellanox也在不断成长:2010年,Mellanox与Voltaire合并,Mellanox和QLogic成为InfiniBand的主要供应商;2013年,Mellanox 进一步进军网络领域,收购硅光技术公司 Kotura 和并行光互连芯片制造商 IPtronics,进一步巩固其行业地位;到 2015 年,Mellanox 已占据全球 InfiniBand 市场80% 的份额。业务范围从芯片扩展到网卡、交换机/网关、远程通信系统、线缆和模块,成为世界级网络供应商。

随着AI的持续发展,InfiniBand的价值也日益显现,Mellanox也因其在该技术上近乎垄断的地位而成为厂商眼里的香饽饽。

为什么InfiniBand对于AI如此重要?对于AI超级计算机来说,我们可以把它看作一个由许多图形处理单元(GPUs)组成的集群,这些单元进行大量复杂的计算。此外,还有一些中央处理单元(CPUs)负责指挥计算机的操作,再加上一些DRAM芯片和NAND芯片,成本大约分配为:50-60%用于GPUs,10-15%用于CPUs和DRAM芯片,5-10%用于NAND芯片。

但上述所有的芯片需要互相连接,这可以通过InfiniBand或以太网电缆来实现,也就是所谓的“网络”,它们占硬件成本的10-15%,而目的就是提供尽可能高的带宽,让数据能快速传输,倘若不能实现更高的带宽,那么无论在GPUs上花费多少成本,最后都会变得毫无意义。

英伟达作为AI领域最早的探索者之一,很敏锐地察觉到了这一点,同时决定将其关注点从游戏转向AI。2019 年,英伟达以69 亿美元收购 Mellanox,超过了竞争对手英特尔和微软的出价,后两者的出价分别为 60 亿美元和 55 亿美元,这笔数额庞大的收购,为英伟达进入网络技术市场铺平了道路。

当时英伟达的CEO黄仁勋解释称,收购Mellanox的原因是:“这是两家全球领先的高性能计算公司的合并,我们专注于加速计算,而Mellanox则专注于互连和存储。”

GPU和网络技术捆绑销售,听起来有点像强买强卖,但令许多人都未预料到的是,由黄仁勋所打造的这一模式迅速取得了成功。截至今年1月,英伟达的年收入翻了一番多,达到609亿美元,计算和网络部门的销售额增长了215%,占英伟达业务的78%。虽然英伟达的GPU部分引起了大量关注,但其网络业务也是成功的关键。在公司的最后一次财报电话会议上,黄仁勋表示,InfiniBand的收入同比增长了五倍,意味着其增长速度约为整个计算和网络业务的两倍。

英伟达将自身的 GPU 算力与 Mellanox 的网络技术相结合,打造出了一个强大的“计算引擎”,在计算基础设施方面,英伟达无疑占据着领先优势,

英伟达的大威胁

过去,业界一直在使用英伟达配套的 InfiniBand 网络解决方案来部署人工智能和机器学习技术,原因很简单,它是目前最成熟的支持大规模部署的网络技术,但InfiniBand并非完美,一方面由于收购,它变成了英伟达的独家产品,另一方面,它的成本昂贵,绝非普通企业可以轻松承担得起的。

英伟达的CEO黄仁勋曾调侃道,InfiniBand只占集群成本的20%,而它能将人工智能训练的性能提高20%,某种程度上已经收回了成本,因而InfiniBand实际上是免费的。但这样的论断显然是有失偏颇的,客户必须首先拿出集群成本的20%,才能真正榨取出集群的性能,这就意味着用120%的成本创造120%的性能。

相对比之下,基于以太网的集群通常只需要额外的10% 甚至更低的成本,尽管后者在性能上往往难以与InfiniBand匹敌,但它凭着自己的低廉价格也争取到了一部分用户。事实上,如今高性能网络的竞争,是InfiniBand与高速以太网的较量,资源充足的厂商会更倾向于选择InfiniBand,而注重性价比的厂商则可能倾向于高速以太网。

但这样的情况并非一成不变,即便是那些具备雄厚财力的大企业,也在寻找更廉价更合适的网络方案,英伟达与InfiniBand正在不断受到挑战。

2023年7月,Linux基金会宣布,将监督成立一个超级以太网联盟,该联盟的创始成员包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特尔、Meta 和微软的支持下,超以太网联盟表示将致力于改进以太网,以满足高性能计算和人工智能系统所需的低延迟和可扩展性要求。

该联盟创立的首要任务是定义和开发他们所称的超以太网传输(UET)协议,这是一种新的以太网传输层协议,能更好地满足人工智能和 HPC 工作负载的需求。

在高层次上,超以太网联盟希望以外科手术的方式完善以太网,只对实现目标所必需的部分进行改进和改动。从一开始,该联盟就着眼于改进以太网技术的软件层和物理层,但不改变其基本结构,以确保成本效益和互操作性。

联盟的技术目标包括开发规范、应用程序接口和源代码,以定义超以太网通信的协议、接口和数据结构。此外,联盟还致力于更新现有的链路和传输协议,创建新的遥测、信令、安全和拥塞机制,以更好地满足大型人工智能和高性能计算集群的需求。同时,由于人工智能和高性能计算工作负载有许多不同之处,UET 将为适当的部署提供单独的配置文件。

得益于这个超级以太网联盟,过去以太网运行 AI 工作负载的几个问题正在解决,也推动了以太网在传统 HPC 工作负载中的更广泛采用,这也让以太网网络公司找到了反攻InfiniBand的机会。


免责声明:来源标记为网络的文章其原创性及文中陈述文字和内容未经我司证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺请读者仅作参考并请自行核实相关内容,版权归原作者所有,如有侵权请联系我们删除。