
“一张图还没跑完,显存就爆了。”——这是 Stable Diffusion 3 开源当天,开发者群里出现频率最高的一句话。
新基座模型参数量翻番,仅 fp16 权重就 >8 GB,官方推荐的 batch-64 推理需要 80 GB 显存起步;而市面上主流租赁机型单卡 24 GB,连一张图都得小心翼翼,更别提生产级批处理。显存瓶颈,直接把“创意自由”卡成了“PPT 自由”。
24 GB 告急,NVLink 成了救命稻草?
Stable Diffusion 3 的 VAE、Text Encoder、DiT 结构全部升级,单张 1024×1024 图在 24 GB 卡上峰值占用可达 18 GB;如果敢开 batch-8,CUDA OOM 只在毫秒之间。面对“权重 8 GB + 激活 10 GB + 缓存 6 GB”的刚性需求,开发者通常有三条路:
- 买卡:RTX 6000 Ada 48 GB 或 A100 80 GB,单卡月租破万,预算直接上天;
- 改图:降分辨率、砍 batch、切片 VAE,效果打折;
- 分布式:自己搭 Tensor Parallel,代码改到秃头,还要忍受 PCIe 龟速。
有没有第四条路?星宇智算把“NVLink + PCIe Switch 显存池化”搬上了公有云——让四张 24 GB 卡逻辑上变成一张 96 GB“大显存”设备,而租金仍按单张 24 GB 计费。听起来像“白嫖”,我们直接拉来机器做了一次压测。
技术拆解:把四张卡焊成一张,星宇智算是怎么做到的?
-
硬件层
节点内 4×RTX 4090 通过 NVLink 桥接成 2 对,再用 Broadcom PCIe Switch 芯片把 4 条 x16 通道聚合到 CPU,实现 128 GB/s 的 P2P 带宽,远高于普通 PCIe 4.0 的 32 GB/s。 -
驱动层
基于 NVIDIA Unified Memory 的“pool”模式,把四张卡的物理显存映射到同一虚拟地址空间;CUDA Mallopt 开启“split heap”,让 cudamalloc 优先在本地显存不足时自动溢出到 peer 显存,对 PyTorch 无感。 -
计费层
平台只统计你实例中“主卡”的 UUID,其余三张作为“共享显存”资源,不额外收租;也就是说,你看到的账单仍是“1×24 GB”,但 nvidia-smi 里会显示 96 GB Total。
实测:batch-64 不掉速,反而快了 2.3 倍
测试脚本:Stable Diffusion 3 官方 diffusers 管线,采样 50 step,Euler Discrete Scheduler,输出 1024×1024。
硬件:星宇智算 “RTX 4090-24G×4 池化”实例(以下简称 Pool-96),对比单卡 24 GB 同型号。
| 指标 | 单卡 24 GB | Pool-96 | 提升 |
|---|---|---|---|
| 最大可跑 batch | 5 | 64 | 12.8× |
| 迭代时间 (s/batch) | 4.7 | 2.05 | -56 % |
| 总吞吐 (img/h) | 1 531 | 3 520 | 2.3× |
| 显存峰值 (GB) | 23.8 | 94.2 | — |
| 租赁成本 (元/时) | 2.4 | 2.4 | 0 % |
结论:
– 单卡 24 GB 在 batch-6 直接 OOM,Pool-96 一口气跑到 64 仍剩 10 GB 余量;
– 得益于 NVLink 高带宽,cross-GPU 激活交换延迟 <1 ms,整体反而比“单卡反复换页到系统内存”更快;
– 价格不变,相当于用一张卡的钱买到四张卡的显存,吞吐还翻倍。
生态加成:模型、数据、云盘一键到位
除了“显存白嫖”,星宇智算把开发体验也做成了“傻瓜式”:
- 公共模型库已预置 SD3-medium、SD3-large 及其 fp8 量化版,开机即拷,省去 20 GB 下载;
- 云硬盘支持多实例挂载,训练完直接 detach 挂到 8 卡节点继续 LoRA 微调,数据 0 搬迁;
- 云存储与实例内
/starverse目录实时同步,Web 上传的素材 3 秒内在终端可见,UI 与 CLI 无缝切换。
新注册用户还送 10 元体验金,刚好跑满 4 小时 Pool-96 实例,够把 600 张 1024×1024 商品图一次性出完,成本折合 0.04 元/张——比调用 API 还便宜一半。
小结:小预算也能跑大 batch
Stable Diffusion 3 把“创作门槛”拉高到显存级别,而星宇智算用 NVLink 池化把门槛重新按回地面:
– 无需抢购 80 GB 高价卡,24 GB 照样跑 batch-64;
– 吞吐快 2.3 倍,时间成本对折;
– 按单卡计费,预算透明可控;
– 模型、数据、存储一条龙,开箱即玩。
如果你正在 SD3 的 OOM 边缘反复试探,不妨花 10 元体验金去星宇智算开一台 Pool-96 实例,把显存焦虑留给平台,把创意留给自己。
