人工智能、AI大模型、GPU集群、高带宽域、以太网互联、超节点、算力扩展、产业生态、技术规范、Scale Up、Scale Out 等关键词自然交织于全文。
AI大模型迫切呼唤“空间大、吞吐猛”的新算力底座
过去几年,Transformer架构的极速扩张让“模型越大越聪明”成为业界共识。以GPT、Llama、Gemini为例,参数规模从数十亿很快跃迁到万亿级别,训练token量同步暴增。Scaling Law揭示:算力每翻一倍,模型能力几乎呈线性甚至超线性递增,同时对显存容量、通信带宽的胃口也同步放大。
更长的文本序列同样推动显存需求飙升:
- 优点:对话质量更好、一次性处理复杂任务、长期记忆与个性化显著提升。
- 代价:训练阶段显存消耗远高于短文本场景,推理时的KV-Cache也让显存捉襟见肘。
一句话总结:“聪明”与“能吃”总是同时发生,传统底座的扩展模式已逼近极限。
单芯片与Scale Out双双碰壁,算力“跃层”迫在眉睫
| 阻点一 | 单芯片内存墙
HBM容量和带宽爬升速度跑不过算力激增;实测Hopper芯片在某些工作负载中有效算力利用率(HFU)反而低于上一代Ampere。
| 阻点二 | 多机并行木桶效应
Global Batch Size无法无限增加;训练超百T模型时,节点间All-Reduce、P2P流量激增,通信无法与计算完美重叠,HFU陡降。
| 阻点三 | 并行粒度受限于物理拓扑
经典8卡一机,只能把Tensor并行/Expert并行锁死在单节点内;跨机通信延迟高、带宽低,HFU再次掉档。
现实是:Scale Out横向扩展的边际成本越来越高。业界必须寻找新的“纵向拉伸”思路——把更多GPU装进一个超大盒子里,把最卡顿的通信留在盒子里完成。
高带宽域 HBD:把更多算力塞进同一“房”里
通俗理解,HBD=High Bandwidth Domain,即单节点内GPU-GPU带宽是跨节点网络的数倍。例如:
- 机内NVLink H100:900 GBps
- 跨节点IB网络:100 GBps
如果能把HBD从“8卡”扩展到“16卡、32卡、64卡”,大量All-Reduce、梯度广播、Expert交换就无需跨出盒子,通信占比立刻下降,HFU曲线再次回升。
MIT&Meta的最新论文通过因果模型给出明确结论:HBD≥64卡时,万亿级模型的训练效率比传统8卡节点高 1.5~2 倍。英伟达已在GH200、GB200模组里验证相似思路:HB链路直连CPU/Memory,形成统一内存编址,算力投喂速度=内存吐出速度。
但关键技术点还在于:
- 超大带宽必须有物理距离极短、延时极低的链路;
- 生态一旦封闭,就会成为下一代算力的“卡脖子”环节。
ETH-X:让“超节点”不再被一家巨头锁喉
为什么选择以太网?
- 标准公开、生态成熟,单端口800G MAC已规模商用;
- 51.2T单芯片交换容量进入实地部署;
- 多家GPU厂、交换机厂、服务器厂、硅光厂可以各自最擅长的部分“拼乐高”,形成 开放超节点产业生态。
蓝图速读:ODCC ETH-X 三大里程碑
| 2024 Q4 | 发起倡议,完成Top-Down需求文档、网络拓扑白皮书。
| 2025 Q2 | 样机验证“64卡全互联”HB网络,跑一次10T级长序列大模型。
| 2025 Q3 | 发布《ETH-X超节点技术规范 1.0》,开放KR、CR、ACC等接口定义,让所有服务器厂、光模块厂、GPU厂按同一本“说明书”出牌。
实战价值:ETH-X带来的四步“连环增益”
- 算力密度倍增:单个机柜实现千卡等效算力,机柜数量直接砍半。
- 训练窗口缩短:原先需6 周收敛的大模型,压缩到 3~4 周。
- 推理成本折半:千亿模型长文本推理显存压力大幅下降,模型切片数可减少40%。
- 生态繁荣:GPU、交换芯片、液冷系统、硅光模块百花齐放,降低单点供应商风险。
👉 想第一时间追踪 ETH-X 实测数据,看这个链接为你持续更新!
后续布局:Scale Up + Scale Out 双网协同
- Scale Up:ETH-X HB网络做到极致低延迟、超大带宽,做“房”内的瞬间同步。
- Scale Out:传统以太网/IB网络负责跨机房、跨园区扩张,主打“人多力量大”。
两张网络各司其职,又不互相“打架”,最终形成 百万卡超大算力海洋。
拓展案例:ETH-X 示范场景俱乐部
- AIGC 企业:10B 图文模型 1 天完成底座微调。
- 药物研发:蛋白-配体 3D 结构预测训练周期从 4 周降到 6 天。
- 自动驾驶:多模态感知大模型千卡级复现实验室效果,无需迁址超算中心。
FAQ:一篇看懂 ETH-X 最常被问的 6 个问题
Q1:ETH-X到底跟NVLink有什么区别?
A:NVLink是英伟达私有协议,模块、固件、交换芯片全部绑定;ETH-X 建立在以太网物理层,生态开放,任何厂商均能切入。
Q2:64卡全互联需要多少根光纤?成本能扛得住吗?
A:通过51.2T交换芯片+硅光共封装(CPO),裸纤数量可控制在千根级别,按目前行业光模块降价趋势,整体成本比NVLink方案低 20% 以上。
Q3:GPU与CPU统一内存真能跑得快?
A:同步访问模式在微秒级延迟内可行,但对距离、布线极其敏感;ETH-X更倾向于异步 offload 路径,充分利用 HB 带宽,软件用 Zero-Offload 即可开箱即用。
Q4:对液冷设计要求更高吗?
A:HB链路集中在机箱内部,功耗密度确实抬升,但通过冷板式液冷+单相浸没组合能够有效压制 100kW/柜的极端热负载。
Q5:长序列到底受益多少?
A:在 32k token 长文本场景,ETH-X 样机对比传统 IB 网络,端到端训练速度提升 1.4~1.8 倍,显存占用下降 30%。
Q6:普通开发者何时能用上?
A:规范 1.0 预计 2025 Q3 发布,主流云厂商将在 2025 Q4 提供 GPU 实例开放预览,无需自行拼装机柜。
写在最后:开放,才是超节点的长期主义
回顾历史,从大型机到PC、再从单一云到多云,算力的每一次跃迁都离不开开放标准带来的生态红利。ETH-X 将中国互联网巨头、芯片厂、服务器厂、网络厂、光模块厂首次拉进同一条战壕,让“做AI基建”不再等于“给某家GPU巨头付税”。
未来,任何一个算法团队都能像“拧开水龙头”一样获得可负担、可横向扩张、不被锁定的超大算力。这不仅是技术突破,更是产业心态的转向。