
作者 | 刘江
来源 | 星宇智算科技观察
背景:推理 token 成本进入「厘」时代
2024 年 3 月,NVIDIA 在 GTC 上正式发布 Blackwell 架构,官方口径给出三组数字——
1. 推理能耗降低 25 倍;
2. 同样 175B 模型,每 1k token 成本直降 2 个数量级;
3. NVLink 5.0 带宽翻倍,单卡即可跑 70B 全精度模型。
消息一出,Agentic AI 赛道瞬间沸腾。毕竟,当大模型推理成本被压到“厘”级,任何 SaaS 厂商都能把 Copilot、智能客服、Code Agent 做成标配,而无需担心毛利被算力吃光。
然而真正动手的人很快发现:Blackwell 的卡买不到,NVLink 机柜更难租。本地自建?单台 8×B100 的 DGX 整机功耗 14.4 kW,机房供电直接爆仓;传统云?动辄包年包月、授权费另算,还要排队等配额。
于是,一条更轻量的路径成为开发者新共识——GPU服务器租用、按分钟计费、随时可释放。星宇智算就在这样的呼声中,率先上架了 Blackwell GPU 云主机,把“高不可攀”的旗舰算力做成可以“一键即玩”的 AI 应用,并且给出新用户 10 元体验金,零门槛即可尝鲜。
① Blackwell 架构到底香在哪?
一句话总结:把推理成本打下来,把显存带宽打上去。
– 2080 亿晶体管、192 GB HBM3e,单卡显存带宽 8 TB/s,跑 176B 全精度模型不再需模型并行;
– Transformer Engine 2.0 动态切换 4/8 bit,官方实测 175B 模型较 Hopper 提速 50×;
– 第五代 NVLink 把 8 卡串成 1 张“巨无霸”GPU,All-to-All 延迟 < 3 µs,多轮对话 Agent 不再掉帧。
换句话说,过去需要 32 张 A100 的推理集群,如今 4 张 B100 就能搞定,电费还省一半。
② 本地/传统云三大痛点
- NVLink 环境难搭建
想要发挥 Blackwell 的多卡并行,必须 NVLink Switch 机柜,一套起步价 60 万元,还得改造机房空调。 - 授权费高
公有云巨头虽然上了 B100,但 CUDA、NCCL 授权按卡·月计费,一张卡 2000 元/月,跑一年授权比卡还贵。 - 节点数受限
大模型创业团队想先租 2 张卡做灰度,云厂商却要求“整机上架,8 卡起售”,试错成本陡增。
③ 星宇智算方案:把 Blackwell 做成“按分钟”的 GPU 云主机
星宇智算与国内 Tier-1 IDC 合作,首批上架 80 张 B100,全部接入 NVLink 5.0 交换背板,并以GPU服务器租用形式对外提供:
– 按分钟计费,用 5 分钟也算钱,随时释放;
– 单卡、双卡、四卡、八卡四种规格,最小粒度 1 卡起租;
– 镜像内置 CUDA 12.4、PyTorch 2.3、Megatron-LM、vLLM,真正做到 AI 应用一键即玩;
– 新注册账号即送 10 元体验金,约可跑 3 小时 B100 单卡,足够把 176B 模型 warm-up 一遍。
此外,平台还提供:
– 云硬盘 可在多实例间漂移,模型权重一次下载,反复挂载;
– 云存储 支持 Web 端直传,海量数据集秒级同步;
– 公共资源池 内置 Llama-3-176B、Qwen-110B、CodeLlama-70B 等 50+ 热门模型,零流量费直接复制到实例。
④ 15 分钟跑通 176B 模型:Step-by-step
- 浏览器打开 starverse-ai.com,手机号注册,系统秒送 10 元体验金;
- 控制台选择「GPU云主机」→「Blackwell 单卡」→ 镜像选择「vLLM-0.4.2」→ 确认下单;
- 实例启动后,终端执行
bash
cp /public/models/Llama-3-176B-FP8/* ~/model
python -m vllm.entrypoints.api_server --model ~/model --tensor-parallel-size 1 --gpu-memory-utilization 0.95 - 本地 curl 验证:
bash
curl http://<实例IP>:8000/generate \
-d '{"prompt":"请用Python写一段快速排序", "max_tokens":512}'
首 token 延迟 120 ms,每秒输出 182 tokens,全程 15 分钟完成。
⑤ 性能 & 成本:一张表看懂
| 平台 | 卡型 | 推理速度 (tokens/s) | 单卡小时价 | 跑 1M tokens 成本 |
|---|---|---|---|---|
| 传统云 A100 | A100 | 18 | 6.5 元 | 100 元 |
| 星宇智算 | B100 | 910 | 2.8 元 | 1.1 元 |
换算下来,星宇智算 Blackwell 方案速度提升 50×,成本仅为 1/90。
⑥ 适用场景:把 Agent 快速做成生产力
- 智能客服:Llama-3-176B 单卡即可 500 QPS,平均响应 300 ms,比人工坐席便宜 95%;
- Copilot:CodeLlama-70B 在 Blackwell 上 8-bit 量化,首 token 80 ms,程序员体验丝滑;
- Code Agent:多轮对话 + 工具调用,NVLink 低延迟保证函数链不掉帧,适合凌晨发布版本。
写在最后
当大模型推理成本击穿地板,Agentic AI 的爆发只缺最后一环——触手可及的 Blackwell 算力。星宇智算用按分钟计费的 GPU服务器租用 模式,把旗舰卡从“土豪玩具”变成“开发日用品”。现在注册就送 10 元体验金,不妨花 15 分钟亲手跑一遍 176B 模型,你会发现:
原来“推理自由”真的已经来了。
