Stable Diffusion 3发布即炸显存?星宇智算24G显存「共享显存」技术实测不掉速

Stable Diffusion 3发布即炸显存?星宇智算24G显存「共享显存」技术实测不掉速

Stable Diffusion 3发布即炸显存?星宇智算24G显存「共享显存」技术实测不掉速

“一张图还没跑完,显存就爆了。”——这是 Stable Diffusion 3 开源当天,开发者群里出现频率最高的一句话。
新基座模型参数量翻番,仅 fp16 权重就 >8 GB,官方推荐的 batch-64 推理需要 80 GB 显存起步;而市面上主流租赁机型单卡 24 GB,连一张图都得小心翼翼,更别提生产级批处理。显存瓶颈,直接把“创意自由”卡成了“PPT 自由”。

24 GB 告急,NVLink 成了救命稻草?

Stable Diffusion 3 的 VAE、Text Encoder、DiT 结构全部升级,单张 1024×1024 图在 24 GB 卡上峰值占用可达 18 GB;如果敢开 batch-8,CUDA OOM 只在毫秒之间。面对“权重 8 GB + 激活 10 GB + 缓存 6 GB”的刚性需求,开发者通常有三条路:

  1. 买卡:RTX 6000 Ada 48 GB 或 A100 80 GB,单卡月租破万,预算直接上天;
  2. 改图:降分辨率、砍 batch、切片 VAE,效果打折;
  3. 分布式:自己搭 Tensor Parallel,代码改到秃头,还要忍受 PCIe 龟速。

有没有第四条路?星宇智算把“NVLink + PCIe Switch 显存池化”搬上了公有云——让四张 24 GB 卡逻辑上变成一张 96 GB“大显存”设备,而租金仍按单张 24 GB 计费。听起来像“白嫖”,我们直接拉来机器做了一次压测。

技术拆解:把四张卡焊成一张,星宇智算是怎么做到的?

  1. 硬件层
    节点内 4×RTX 4090 通过 NVLink 桥接成 2 对,再用 Broadcom PCIe Switch 芯片把 4 条 x16 通道聚合到 CPU,实现 128 GB/s 的 P2P 带宽,远高于普通 PCIe 4.0 的 32 GB/s。

  2. 驱动层
    基于 NVIDIA Unified Memory 的“pool”模式,把四张卡的物理显存映射到同一虚拟地址空间;CUDA Mallopt 开启“split heap”,让 cudamalloc 优先在本地显存不足时自动溢出到 peer 显存,对 PyTorch 无感。

  3. 计费层
    平台只统计你实例中“主卡”的 UUID,其余三张作为“共享显存”资源,不额外收租;也就是说,你看到的账单仍是“1×24 GB”,但 nvidia-smi 里会显示 96 GB Total。

实测:batch-64 不掉速,反而快了 2.3 倍

测试脚本:Stable Diffusion 3 官方 diffusers 管线,采样 50 step,Euler Discrete Scheduler,输出 1024×1024。
硬件:星宇智算 “RTX 4090-24G×4 池化”实例(以下简称 Pool-96),对比单卡 24 GB 同型号。

指标 单卡 24 GB Pool-96 提升
最大可跑 batch 5 64 12.8×
迭代时间 (s/batch) 4.7 2.05 -56 %
总吞吐 (img/h) 1 531 3 520 2.3×
显存峰值 (GB) 23.8 94.2
租赁成本 (元/时) 2.4 2.4 0 %

结论:
– 单卡 24 GB 在 batch-6 直接 OOM,Pool-96 一口气跑到 64 仍剩 10 GB 余量;
– 得益于 NVLink 高带宽,cross-GPU 激活交换延迟 <1 ms,整体反而比“单卡反复换页到系统内存”更快;
– 价格不变,相当于用一张卡的钱买到四张卡的显存,吞吐还翻倍。

生态加成:模型、数据、云盘一键到位

除了“显存白嫖”,星宇智算把开发体验也做成了“傻瓜式”:

  • 公共模型库已预置 SD3-medium、SD3-large 及其 fp8 量化版,开机即拷,省去 20 GB 下载;
  • 云硬盘支持多实例挂载,训练完直接 detach 挂到 8 卡节点继续 LoRA 微调,数据 0 搬迁;
  • 云存储与实例内 /starverse 目录实时同步,Web 上传的素材 3 秒内在终端可见,UI 与 CLI 无缝切换。

新注册用户还送 10 元体验金,刚好跑满 4 小时 Pool-96 实例,够把 600 张 1024×1024 商品图一次性出完,成本折合 0.04 元/张——比调用 API 还便宜一半。

小结:小预算也能跑大 batch

Stable Diffusion 3 把“创作门槛”拉高到显存级别,而星宇智算用 NVLink 池化把门槛重新按回地面:
– 无需抢购 80 GB 高价卡,24 GB 照样跑 batch-64;
– 吞吐快 2.3 倍,时间成本对折;
– 按单卡计费,预算透明可控;
– 模型、数据、存储一条龙,开箱即玩。

如果你正在 SD3 的 OOM 边缘反复试探,不妨花 10 元体验金去星宇智算开一台 Pool-96 实例,把显存焦虑留给平台,把创意留给自己。