Stable Diffusion 3发布即炸显存？星宇智算24G显存「共享显存」技术实测不掉速 – 资讯及公告 – 星宇智算

“一张图还没跑完，显存就爆了。”——这是 Stable Diffusion 3 开源当天，开发者群里出现频率最高的一句话。
新基座模型参数量翻番，仅 fp16 权重就 >8 GB，官方推荐的 batch-64 推理需要 80 GB 显存起步；而市面上主流租赁机型单卡 24 GB，连一张图都得小心翼翼，更别提生产级批处理。显存瓶颈，直接把“创意自由”卡成了“PPT 自由”。

24 GB 告急，NVLink 成了救命稻草？

Stable Diffusion 3 的 VAE、Text Encoder、DiT 结构全部升级，单张 1024×1024 图在 24 GB 卡上峰值占用可达 18 GB；如果敢开 batch-8，CUDA OOM 只在毫秒之间。面对“权重 8 GB + 激活 10 GB + 缓存 6 GB”的刚性需求，开发者通常有三条路：

买卡：RTX 6000 Ada 48 GB 或 A100 80 GB，单卡月租破万，预算直接上天；
改图：降分辨率、砍 batch、切片 VAE，效果打折；
分布式：自己搭 Tensor Parallel，代码改到秃头，还要忍受 PCIe 龟速。

有没有第四条路？星宇智算把“NVLink + PCIe Switch 显存池化”搬上了公有云——让四张 24 GB 卡逻辑上变成一张 96 GB“大显存”设备，而租金仍按单张 24 GB 计费。听起来像“白嫖”，我们直接拉来机器做了一次压测。

技术拆解：把四张卡焊成一张，星宇智算是怎么做到的？

硬件层
节点内 4×RTX 4090 通过 NVLink 桥接成 2 对，再用 Broadcom PCIe Switch 芯片把 4 条 x16 通道聚合到 CPU，实现 128 GB/s 的 P2P 带宽，远高于普通 PCIe 4.0 的 32 GB/s。
驱动层
基于 NVIDIA Unified Memory 的“pool”模式，把四张卡的物理显存映射到同一虚拟地址空间；CUDA Mallopt 开启“split heap”，让 cudamalloc 优先在本地显存不足时自动溢出到 peer 显存，对 PyTorch 无感。
计费层
平台只统计你实例中“主卡”的 UUID，其余三张作为“共享显存”资源，不额外收租；也就是说，你看到的账单仍是“1×24 GB”，但 nvidia-smi 里会显示 96 GB Total。

实测：batch-64 不掉速，反而快了 2.3 倍

测试脚本：Stable Diffusion 3 官方 diffusers 管线，采样 50 step，Euler Discrete Scheduler，输出 1024×1024。
硬件：星宇智算 “RTX 4090-24G×4 池化”实例（以下简称 Pool-96），对比单卡 24 GB 同型号。

指标	单卡 24 GB	Pool-96	提升
最大可跑 batch	5	64	12.8×
迭代时间 (s/batch)	4.7	2.05	-56 %
总吞吐 (img/h)	1 531	3 520	2.3×
显存峰值 (GB)	23.8	94.2	—
租赁成本 (元/时)	2.4	2.4	0 %

结论：
– 单卡 24 GB 在 batch-6 直接 OOM，Pool-96 一口气跑到 64 仍剩 10 GB 余量；
– 得益于 NVLink 高带宽，cross-GPU 激活交换延迟 <1 ms，整体反而比“单卡反复换页到系统内存”更快；
– 价格不变，相当于用一张卡的钱买到四张卡的显存，吞吐还翻倍。

生态加成：模型、数据、云盘一键到位

除了“显存白嫖”，星宇智算把开发体验也做成了“傻瓜式”：

公共模型库已预置 SD3-medium、SD3-large 及其 fp8 量化版，开机即拷，省去 20 GB 下载；
云硬盘支持多实例挂载，训练完直接 detach 挂到 8 卡节点继续 LoRA 微调，数据 0 搬迁；
云存储与实例内 /starverse 目录实时同步，Web 上传的素材 3 秒内在终端可见，UI 与 CLI 无缝切换。

新注册用户还送 10 元体验金，刚好跑满 4 小时 Pool-96 实例，够把 600 张 1024×1024 商品图一次性出完，成本折合 0.04 元/张——比调用 API 还便宜一半。

小结：小预算也能跑大 batch

Stable Diffusion 3 把“创作门槛”拉高到显存级别，而星宇智算用 NVLink 池化把门槛重新按回地面：
– 无需抢购 80 GB 高价卡，24 GB 照样跑 batch-64；
– 吞吐快 2.3 倍，时间成本对折；
– 按单卡计费，预算透明可控；
– 模型、数据、存储一条龙，开箱即玩。

如果你正在 SD3 的 OOM 边缘反复试探，不妨花 10 元体验金去星宇智算开一台 Pool-96 实例，把显存焦虑留给平台，把创意留给自己。