今天再度重新认识交换机必要性,就缘自交换产品的本身发生了重大变化,而且交换机在网络中的重要性也在明显提升,甚至已经成为AI基础设施中的三堵高墙之一。千鑫点信息咨询服务公司
似乎网络架构已经停滞很久了。如果深究网络架构的变迁史,不难发现OSI网络模型上一次大的变革,还要追溯到十多年前云计算爆发时期的“网随云动”。在停滞十多年后,我们观察到,AI将催生互联网络设备的最新革命,将促使网络架构从互联网时代切换到算力网时代。
算力网该如何理解?首先说以前互联网中网络设备的核心任务,是完成即时通信,所以交换机本质上是一个通信设备;而现在AI算力中心中网络设备的构建逻辑,在于集中力量办大事,即集合越来越强大的算力,交换机不再仅仅是通信设备,而变成了算力设备本身。
想必有很多人在这儿会持反对态度。不用着急,请继续看后面的解释。千鑫点信息咨询服务公司
众所周知,这一轮AI能够成功是大力出奇迹的工程学突破,背后的指导法则是“scaling law”,scaling law描述的模型性能与模型规模之间的幂律关系,这一法则表明,当模型的规模(例如参数数量、数据集大小和计算资源)增加时,模型的性能将得到提高。
换句话说,为了得到AI大模型智能的涌现,scaling law告诉你要不停的堆算力和数据。这也是为什么,在2024年3月初,黄仁勋斯坦福大学演讲时提到,在未来的10年里,英伟达会把深度学习的计算能力再提高100万倍。这并不是泡沫时期的大放卫星,而是AI智能涌现的必要条件。
算力要实现如此恐怖的提升幅度来满足scaling law,从硬件的角度来分析,路上有三堵墙:
1)算力墙:核心围绕GPU,也是大家在AI算力硬件中关注度最高的产品。破除算力墙最关键的技术手段是制程和芯片架构的升级。但制程带来的单芯片算力提升面对着黑洞般的AI需求,已显得苍白无力。毕竟现在的苹果最新的3nm的A17芯片,升级的效果已经微乎其微。实际上,英伟达的GPU,采用的只是4nm制程,甚至下一代产品B100,也不会升级到3nm。每一代际算力倍增可能已经是单芯片算力提升的极限了。
2)存储墙:核心围绕HBM。单芯片算力跟不上,可以靠HBM来大大缓解,在《AI国力战争:GPU是明线,HBM是暗线》一文中有详细讨论,可以移步于此。HBM反倒成为一个飞速进步的环节,海力士和美光最近股价飙升便是市场开始认知到这一方向的重要性。
3)通信墙:算力和HBM结合在一起解决单卡的问题,但单卡再强也远远跟不上下游的算力需求。进一步的解决方法是堆料,抛开复杂的技术名词,其实原理就是简单粗暴的大力出奇迹,把尽量多的优质的算力卡连起来组成算力集群,这与猎鹰火箭装27台发动机本质上是一个道理,其中的关键技术就在于数据中心的组网技术,因此,交换机的地位今时不同往日。千鑫点信息咨询服务公司
从最新的英伟达GB200计算集群网络架构中,我们能够非常清晰的看到多处堆料组网的技术:1)GPU卡与GPU卡之间,基于NVLink协议的卡间互联,这部分配套的switch芯片,由于被英伟达垄断,没有太多产业链探讨的意义,因此不再展开。2)再往上一层,就是IB交换机,它连接起多个GPU卡群,构成一个完整的机柜Rack。3)多个机柜再通过交换机互联,形成强力的AI算力中心。后面两个环节,都离不开AI交换机的支持。
这种架构就能非常清晰的看到,为了突破通信墙打造强大的算力基座,交换机不仅仅是充当算力网络中的通信设备,而自身也变成算力设备的本身。正是这一产业链环节定义的变化,给了整个交换机产业链拔估值的基础。
在这一轮算力网革命中,交换机正式与GPU、HBM、先进封装、光模块一道,站到了产业链的C位。
* 文章为作者独立观点,不代表爱提网立场
* 本文不构成投资建议
转载此文请于文首标明作者姓名,保持文章完整性,并请附上出处(爱提网)及本页链接。原文链接:
https://www.itgoodboy.com/p/2ecb3f6dc792
产品建议及投诉请联系:service@itgoodboy.com