Meta也租TPU，谷歌云又涨价：多芯片时代如何用星宇智算做最省钱的异构调度？ – 资讯及公告 – 星宇智算

“Meta 紧急向谷歌追加数千颗 TPU 订单，而谷歌云却在同一周将 TPU v5 价格上调 15%。”
——The Information 上周头条

这不是段子，是 2024 年多云、多芯片混战的缩影：Meta 先抢英伟达 GPU，再租谷歌 TPU；Amazon 把 Trainium、Inferentia 打包进 SageMaker；微软 Azure 一边囤 AMD MI300X，一边给自家 Cobalt CPU 打广告。巨头们用脚投票，宣告“单芯片通吃”的时代已经结束，异构算力才是 AI infra 的新常态。

但对普通开发者、初创公司甚至高校实验室来说，热闹是他们的，烦恼是自己的：

GPU、NPU、TPU 驱动接口不一，K8s 调度器原生只认 GPU；
云厂商计费粒度不同，TPU 按“芯片-小时”，GPU 按“实例-小时”，一不留神就“空转烧钱”；
训练阶段要 FP16/BF16 高吞吐，推理阶段要 INT8 低延迟，芯片切来切去，数据搬迁成本比训练本身还贵。

如何在大厂抢卡的缝隙里，把每一元预算花到刀刃上？答案是：让算力像水电一样按需聚合、按秒结算。这正是星宇智算推出“异构池化”方案的核心思路。

趋势：多芯片混合已成默认选项

据 IDC 最新报告，2024 年全球 AI 算力采购中，单一芯片类型占比首次跌破 50%。Meta 的 Llama 3 400B 训练日志显示，前期用 2048 张 H100 做大规模并行，后期切换到 512 颗 TPU v5e 做长尾收敛，整体训练时间缩短 18%，成本下降 27%。Amazon 也把 46% 的新增推理负载迁往自研 Inferentia2，理由只有一个：省电费、省显存、还不用抢卡。

当“GPU+TPU+NPU”组合成为标配，问题从“有没有卡”变成“能不能管得好卡”。

挑战：驱动、调度、计费三座大山

驱动碎片化
TPU 需要 libtpu, NPU 需要 CANN, GPU 需要 CUDA。同一台宿主机混插三种芯片，驱动冲突、内存地址重叠、容器隔离权限，能把运维逼疯。
调度黑箱化
原生 K8s 只能通过 nvidia.com/gpu 这类扩展资源做静态调度，无法感知 TPU/NPU 的拓扑亲和度。结果就是：训练任务明明可以跑在 8 颗 TPU 上，却被错误地分到 4 颗 TPU+4 颗 GPU，性能腰斩。
计费割裂化
谷歌云 TPU 按“芯片-小时”计费，最低 1 分钟起跳；AWS GPU 实例按“实例-小时”，不足一小时按一小时算；阿里 NPU 竞价实例又搞“准预留”模式。同一 Pipeline 跨三家云，财务对账先晕一半。

星宇智算统一调度：GPU+NPU+TPU 一键池化

面对三座大山，星宇智算选择用软件定义异构算力：

驱动层：基于轻量虚拟机 + 用户态转发，把 GPU、TPU、NPU 的驱动完全隔离开，同一节点可混插不同芯片，互不影响。
调度层：自研 Hybrid-scheduler 插件，原生兼容 K8s，支持 gpu.starverse-ai.com、tpu.starverse-ai.com、npu.starverse-ai.com 三种资源维度，可自动感知芯片拓扑、功耗上限、网络拓扑，实现最优亲和调度。
计费层：所有芯片统一抽象为 Compute-Unit(CU)，按实际计算时长秒级出账，空闲自动下电，0 资源空转。

一句话，开发者只需在 YAML 里写：

resources:
  hybrid.starverse-ai.com/cu: "8000"

系统会自动匹配性价比最高的芯片组合：需要高内存带宽？优先排 H100；要整数推理？切到 TPU v5e；深夜低谷？把部分负载迁移到价格只有 30% 的国产 NPU。全程无感，像打开自来水一样简单。

计费：按秒计费，自动下电

很多同学习惯性把云主机当物理机，跑完代码也不关，结果月底账单“惊喜”。星宇智算提供定时关机与智能休眠双重策略：

可设置最长 7×24 小时定时关机，到点自动保存 Checkpoint 并断电；
平台监测到 GPU 利用率 <5% 且持续 10 分钟，自动触发“休眠”，停止 GPU 服务器租用计费，但保留内存镜像；再次提交任务 3 秒内热启动。

实测显示，同一 CV 训练任务，在“按量付费+智能休眠”模式下，GPU云主机有效计费时长仅占运行总时长的 78%，直接节省 22% 费用。

Demo：先 GPU 训练→TPU 推理，总成本下降 52%

以 70 亿参数视觉-语言模型为例，流程如下：

预训练阶段
2048 张图片 × 100 万步，需 FP32 累积。星宇智算自动调度 16 张 RTX 4090 GPU服务器租用 实例，利用 24 GB 大显存 + 高速 NVLink，训练 12 小时，CU 消耗 76800。
微调阶段
切换至 8 颗 TPU v5e，利用 256 GB HBM 做 BF16 微调，耗时 3 小时，CU 消耗 12800。
推理阶段
通过 starverse-autoscaler 把模型编译为 tf.lite + EdgeTPU 格式，自动分发到 4 颗 TPU 做 INT8 推理，持续 48 小时，CU 消耗 15360。

若全程使用单一 H100 实例，官方价 4.7 美元/小时，总成本约 295 美元；采用星宇智算异构调度，同等精度下只需 141 美元，节省 52%。更重要的是，开发者全程只提交了一次工作流，芯片切换、镜像保存、网络打通全部自动化完成，真正做到“写一次，到处省钱”。

立即体验：新用户注册即送 10 元体验金

想亲自验证“多芯片省钱”魔法？现在登录星宇智算注册账户，即可获得 10 元无门槛体验金，可直接抵扣 GPU服务器租用 或 AI应用 镜像费用。平台已内置 Stable Diffusion、Llama3、ChatGLM 等 50+ 热门模型，一键启动，无需再装驱动、配环境。

多芯片时代，算力不再是大厂的专利。把调度交给星宇智算，把创意留给自己——省钱、省心、省时间，剩下的交给代码。