
“谁手里有万卡,谁就能拿到下一轮融资。”
——硅谷 VC 上周对 Together AI 的 10 亿美元估值,让“万卡集群”瞬间成为大模型赛道的硬通货。
当“入场券”从 1 000 张 GPU 飙升到 10 000 张,创业者却算了一笔账:自建万卡,仅硬件就要 8–10 亿元人民币,机房土建、供电、散热再追加 2 亿元,交付周期 12 个月起跳。更可怕的是,训练任务一结束,卡就躺在恒温机房里吃灰,折旧费、电费、运维费依旧按秒计费。
“大模型还没盈利,先被固定资产拖垮”——这是 2024 年 AI 行业最真实的焦虑。
痛点:万卡=天价门票
- 现金流黑洞:一次性买断 10 000 张 A800/H800,账面现金瞬间蒸发。
- 交付节奏慢:招标、进口、上架、调网,环环相扣,任何环节延期都意味着错过版本发布窗口。
- 资源闲置:大模型训练呈脉冲式,峰值过后 70% 算力空转,却还要为整机柜支付 5 年折旧。
- 网络瓶颈:普通 25 Gbps 以太网在千卡规模即出现 30% 丢包,万卡场景梯度同步直接“堵车”。
破局:星宇智算弹性集群,把训练成本砍到 1/10
GPU服务器租用不是新概念,但星宇智算把“弹性”做到了小时级:
– 1 小时拉起 1 024 卡,最高可横向扩展至 8 192 卡,用完即释放;
– RDMA 200 Gbps 无阻塞网络,All-Reduce 线性加速比 ≥93%,万卡规模仍保持 90% 以上有效算力;
– 按需计费,支持“训练 3 周、关机 3 个月、再训练 1 周”的脉冲式业务,无闲置浪费;
– 新用户注册即送 10 元体验金,可 0 成本跑通 7 B 模型调试。
换句话说,“万卡”不再是重资产,而是像打开水龙头一样随用随取的 GPU云主机。
技术:为什么敢承诺线性加速比 ≥93%
- 网络:基于 NVIDIA Quantum-2 InfiniBand 交换机,单跳 200 Gbps,二层胖树拓扑,任意两卡之间 <2 μs 延迟。
- 框架:内置 NCCL 2.18+、NVSwitch 优化拓扑感知,自动绑定 GPU:网卡=1:1,消除跨 NUMA 竞争。
- 存储:3D-XPoint 加速池 + 并行文件系统,CheckPoint 写带宽 1 TB/s,万卡同步 Checkpoint 从 30 分钟压缩到 90 秒,训练任务故障恢复时间缩短 5 倍。
- 调度:Kubernetes + Slurm 双引擎,支持抢占式高优任务,保证贵司的 175 B 参数模型在 3 周内封闭完成。
账单:让 CFO 微笑的“训练完即释放”
以 1 024 张 A800(80 GB)跑 21 天为例:
– 自建:硬件 1.2 亿元 + 机房 1 000 万元 + 年度电费 1 200 万元,折合每日折旧 19 万元;
– 星宇智算 GPU服务器租用:1.9 元/卡时,总账单 1 024×1.9×24×21≈98 万元,仅为自建折旧的 1/10。
训练结束立即释放,后续不产生任何费用,现金流曲线从“跳水”变成“脉冲”。
实战:某高校 175 B 模型,3 周 <30 万
背景:国内 Top3 高校 NLP 团队,参数 175 B,数据 2.3 TB,需 1 000 卡连续跑 15 天。
步骤:
① 周一上午提交需求,星宇智算 30 分钟完成配额审批;
② 下午 2 点 1 024 卡集群上线,RDMA 网络自动调优;
③ 训练过程中 2 次节点故障,平台 90 秒热迁移,无人工干预;
④ 第 21 天早上 6 点保存最终 Checkpoint,关机释放;
⑤ 账单 29.4 万元,对比该校去年自建 512 卡集群花费 4 200 万元,节省 99.3%。
生态:不止于算力,AI应用一键即玩
星宇智算在 GPU云主机 之外,还预置了 200+ 公共模型、1 300+ 数据集,Llama 3、Stable Diffusion 3、CodeGeeX4 等全部内置。
– 进入控制台 → 选择“AI应用” → 点击“部署”,3 分钟即可获得带 WebUI 的推理服务;
– 云硬盘、云存储跨实例共享,训练结果可直接挂载至推理节点,无需反复上传;
– 支持 TensorBoard、Weights & Biases、MLflow 可视化,自动同步日志到对象存储,科研论文复现一键搞定。
如何开始
- 打开 https://www.starverse-ai.com ,注册即领 10 元体验金;
- 新建“智算实例”,选择 GPU 型号、卡数、镜像,1 分钟开机;
- 内置 JupyterLab、VS Code、SSH 三种入口,上传代码即可训练;
- 训练结束“关机释放”,账单按秒结算,成本透明可查。
写在最后
大模型竞争已进入“万卡”时代,但“拥有”万卡不再等于“购买”万卡。星宇智算用弹性 GPU服务器租用 把重资产变成轻服务,让高校、初创公司乃至个人开发者,都能以科研预算撬动工业级算力。
当 Together AI 还在用 10 亿美元融资买“门票”时,你可能只需一杯咖啡的时间,就能在星宇智算拉起一张 1 024 卡的“虚拟万卡”——训练完即释放,成本砍到 1/10,创新不再等待。
