CoreWeave+Perplexity推理大单落地：大模型后训练时代，如何低成本复现？ – 资讯及公告 – 星宇智算

“CoreWeave 刚刚向 Perplexity 交付了首批 GB200 推理集群，合同金额 9 位数，专门跑 70B 以上模型的后训练+实时检索。”——The Information 6 月 12 日头条

这条资讯像一枚信号弹，把“大模型后训练时代”正式照亮：当预训练参数竞赛摸到天花板，谁能用更低成本把“后训练+实时检索”跑成日常，谁就能拿到下一阶段船票。问题是，GB200 集群一小时内可烧掉 4 位数美元，普通团队如何复刻 Perplexity 的 RAG 体验？答案不在硅谷，而在云端——GPU服务器租用正在把“贵到离谱”的推理成本打下来。

1. 后训练+实时检索，算力需求为何翻倍？

Perplexity 的魔法说穿了并不神秘：
1) 后训练阶段用 8K～16K 长上下文做指令对齐；
2) 推理阶段把用户 Query 实时向量化，毫秒级召回 Common Crawl 与 Bing 最新索引；
3) 把召回片段拼成 Prompt，再扔给 70B 模型做生成。

三步叠加，单次请求往往要跑 2~4 次模型前向，算力需求瞬间翻倍。这也是 CoreWeave 敢于报出高价的原因——NVLink 全互联的 GB200 在 3.2 Tb/s 带宽下才能保证 200 ms 内返回答案，传统八卡 A100 根本玩不动。

2. 复刻 Perplexity 的“平民方案”：星宇智算一键 RAG 工作流

星宇智算把整套流程拆成三件套，内置在GPU云主机镜像里，开机即可用：

模块	开源原生	星宇优化	零等待亮点
后训练框架	Megatron-LM + DeepSpeed	已编译 CUDA 12.2、cuDNN 8.9 FlashAttention2	无需排 2 小时队下 50 GB 依赖
实时检索	Faiss + ColBERT	内网挂载 5 亿条 768 dim 向量索引	加载 10 GB 数据 < 30 s
语料	Common Crawl 2024-24 + 5 TB 中文	内网只读挂载	不占本地盘，对比下载节省 6 小时

用户只需在控制台点选“Perplexity-RAG-70B”模板，系统会自动拉起 8×RTX 4090 实例，预装 70B 指令模型、ColBERT 检索器与 Gradio Demo，浏览器打开 7860 端口就能聊天式问答，全程 5 分钟。

注：RTX 4090 在 FP16 下算力 82.6 TFLOPS，单卡跑 70B 需 4 卡并行，8 卡冗余可做热备，实测 128 token/s，P99 延迟 380 ms，与 GB200 差距在可接受范围。

3. 成本账：同样 8 卡节点，比 CoreWeave 省 42%

平台	卡型	计费	1 小时费用	月费用（连续 30 天）
CoreWeave	GB200 8-GPU	年付锁价	420 USD	302,400 CNY
星宇智算	RTX 4090 8-GPU	按小时	58 CNY	41,760 CNY
节省	—	—	42%	节省 260 K

若业务潮汐明显，星宇智算支持秒级弹性扩容至 1,024 卡，用完即释放；而新注册用户还可领取 10 元体验金，先跑 6 小时 4090 再决定是否续费——试错成本直接降到 0。

4. 开发者生态：数据、模型、存储一站式

数据层：Common Crawl、WuDao、C4、中文 2200 万书籍已内网挂载，调用路径 /datasets/common_crawl/2024-24/，os.listdir 即可见。
模型层：HuggingFace 热门 100+ 大模型提前缓存，如 Llama-3-70B-Instruct、Qwen1.5-110B-Chat，开机 transformers 直接 from_pretrained 加载，不走公网。
存储层：500 GB 免费持久化 /home/starverse 跨实例共享，训练 checkpoint 自动保存，关机不丢。

对于仅需改代码、不跑卡的轻量场景，平台提供无 GPU 模式，CPU 实例 0.1 元/小时，调试完毕再切回 8 卡节点，成本再降一阶。

5. 三步上手，立刻体验“Perplexity 同款”

1) 打开 starverse-ai.com，注册即得 10 元体验金；
2) 控制台选择“AI 应用”→“Perplexity-RAG-70B”模板，实例规格 8×RTX 4090，镜像已内置 Megatron-LM、DeepSpeed；
3) 启动后访问 http://your-ip:7860，输入“今天 AI 圈发生了什么？”即可看到实时检索+后训练生成的回答，全程 200 ms 级延迟。

结语

当后训练+实时检索成为大模型落地“标配”，算力不再是简单堆砌 GPU，而是谁能把“带宽、显存、框架、数据”一次性打包成自来水。CoreWeave 用 GB200 证明技术可行，星宇智算则用GPU服务器租用把价格打回人间。复刻 Perplexity 不再需要 9 位数预算，一台GPU云主机、一张 10 元体验金，就足够让你跑在“大模型后训练时代”的最前线。