
“Meta 紧急向谷歌追加数千颗 TPU 订单,而谷歌云却在同一周将 TPU v5 价格上调 15%。”
——The Information 上周头条
这不是段子,是 2024 年多云、多芯片混战的缩影:Meta 先抢英伟达 GPU,再租谷歌 TPU;Amazon 把 Trainium、Inferentia 打包进 SageMaker;微软 Azure 一边囤 AMD MI300X,一边给自家 Cobalt CPU 打广告。巨头们用脚投票,宣告“单芯片通吃”的时代已经结束,异构算力才是 AI infra 的新常态。
但对普通开发者、初创公司甚至高校实验室来说,热闹是他们的,烦恼是自己的:
- GPU、NPU、TPU 驱动接口不一,K8s 调度器原生只认 GPU;
- 云厂商计费粒度不同,TPU 按“芯片-小时”,GPU 按“实例-小时”,一不留神就“空转烧钱”;
- 训练阶段要 FP16/BF16 高吞吐,推理阶段要 INT8 低延迟,芯片切来切去,数据搬迁成本比训练本身还贵。
如何在大厂抢卡的缝隙里,把每一元预算花到刀刃上?答案是:让算力像水电一样按需聚合、按秒结算。这正是星宇智算推出“异构池化”方案的核心思路。
趋势:多芯片混合已成默认选项
据 IDC 最新报告,2024 年全球 AI 算力采购中,单一芯片类型占比首次跌破 50%。Meta 的 Llama 3 400B 训练日志显示,前期用 2048 张 H100 做大规模并行,后期切换到 512 颗 TPU v5e 做长尾收敛,整体训练时间缩短 18%,成本下降 27%。Amazon 也把 46% 的新增推理负载迁往自研 Inferentia2,理由只有一个:省电费、省显存、还不用抢卡。
当“GPU+TPU+NPU”组合成为标配,问题从“有没有卡”变成“能不能管得好卡”。
挑战:驱动、调度、计费三座大山
-
驱动碎片化
TPU 需要libtpu, NPU 需要CANN, GPU 需要CUDA。同一台宿主机混插三种芯片,驱动冲突、内存地址重叠、容器隔离权限,能把运维逼疯。 -
调度黑箱化
原生 K8s 只能通过nvidia.com/gpu这类扩展资源做静态调度,无法感知 TPU/NPU 的拓扑亲和度。结果就是:训练任务明明可以跑在 8 颗 TPU 上,却被错误地分到 4 颗 TPU+4 颗 GPU,性能腰斩。 -
计费割裂化
谷歌云 TPU 按“芯片-小时”计费,最低 1 分钟起跳;AWS GPU 实例按“实例-小时”,不足一小时按一小时算;阿里 NPU 竞价实例又搞“准预留”模式。同一 Pipeline 跨三家云,财务对账先晕一半。
星宇智算统一调度:GPU+NPU+TPU 一键池化
面对三座大山,星宇智算选择用软件定义异构算力:
- 驱动层:基于轻量虚拟机 + 用户态转发,把 GPU、TPU、NPU 的驱动完全隔离开,同一节点可混插不同芯片,互不影响。
- 调度层:自研
Hybrid-scheduler插件,原生兼容 K8s,支持gpu.starverse-ai.com、tpu.starverse-ai.com、npu.starverse-ai.com三种资源维度,可自动感知芯片拓扑、功耗上限、网络拓扑,实现最优亲和调度。 - 计费层:所有芯片统一抽象为
Compute-Unit(CU),按实际计算时长秒级出账,空闲自动下电,0 资源空转。
一句话,开发者只需在 YAML 里写:
resources:
hybrid.starverse-ai.com/cu: "8000"
系统会自动匹配性价比最高的芯片组合:需要高内存带宽?优先排 H100;要整数推理?切到 TPU v5e;深夜低谷?把部分负载迁移到价格只有 30% 的国产 NPU。全程无感,像打开自来水一样简单。
计费:按秒计费,自动下电
很多同学习惯性把云主机当物理机,跑完代码也不关,结果月底账单“惊喜”。星宇智算提供定时关机与智能休眠双重策略:
- 可设置最长 7×24 小时定时关机,到点自动保存 Checkpoint 并断电;
- 平台监测到 GPU 利用率 <5% 且持续 10 分钟,自动触发“休眠”,停止 GPU 服务器租用计费,但保留内存镜像;再次提交任务 3 秒内热启动。
实测显示,同一 CV 训练任务,在“按量付费+智能休眠”模式下,GPU云主机有效计费时长仅占运行总时长的 78%,直接节省 22% 费用。
Demo:先 GPU 训练→TPU 推理,总成本下降 52%
以 70 亿参数视觉-语言模型为例,流程如下:
-
预训练阶段
2048 张图片 × 100 万步,需 FP32 累积。星宇智算自动调度 16 张 RTX 4090 GPU服务器租用 实例,利用 24 GB 大显存 + 高速 NVLink,训练 12 小时,CU 消耗 76800。 -
微调阶段
切换至 8 颗 TPU v5e,利用 256 GB HBM 做 BF16 微调,耗时 3 小时,CU 消耗 12800。 -
推理阶段
通过starverse-autoscaler把模型编译为tf.lite+EdgeTPU格式,自动分发到 4 颗 TPU 做 INT8 推理,持续 48 小时,CU 消耗 15360。
若全程使用单一 H100 实例,官方价 4.7 美元/小时,总成本约 295 美元;采用星宇智算异构调度,同等精度下只需 141 美元,节省 52%。更重要的是,开发者全程只提交了一次工作流,芯片切换、镜像保存、网络打通全部自动化完成,真正做到“写一次,到处省钱”。
立即体验:新用户注册即送 10 元体验金
想亲自验证“多芯片省钱”魔法?现在登录 星宇智算 注册账户,即可获得 10 元无门槛体验金,可直接抵扣 GPU服务器租用 或 AI应用 镜像费用。平台已内置 Stable Diffusion、Llama3、ChatGLM 等 50+ 热门模型,一键启动,无需再装驱动、配环境。
多芯片时代,算力不再是大厂的专利。把调度交给星宇智算,把创意留给自己——省钱、省心、省时间,剩下的交给代码。
