
“200 美元/月,只是让 AI 帮你搜网页?”
上周,Perplexity 发布「Computer」内测版,一口气调度 GPT-4o、Claude-3-Opus 等 19 个模型做并行推理,被称为“Agentic 搜索 2.0”。然而,高达 200 美元/月的订阅费让不少开发者直呼“用不起”。
同一时间,GitHub 上悄然出现一份自建方案:用开源编排器 + 国产 GPU 云主机,把同样 19 模型并行 Agent 的月成本压到 900 元人民币以内,性能还反超 12%。
这份方案的作者,正是星宇智算平台的早期测试者。
1. 产品拆解:Perplexity 如何“编排”19 个模型
Perplexity「Computer」的核心不是单个大模型,而是一条多模型流水线:
- 查询路由层:轻量分类器判断问题领域
- 并行推理层:19 条 vLLM/SGLang 实例同时开工,3 秒内返回 19 份候选答案
- 重排序层:Ray Serve 加载 Reward Model,对候选答案打分
- 合成输出层:再用大模型做答案融合与引用标注
整套流程对 GPU 的要求并不高——单卡 24 GB 显存即可跑 7B 模型,但并发量才是成本杀手。Perplexity 官方用自有机房,折旧+电费摊到用户头上,就成了 200 美元/月。
2. 技术映射:星宇智算把“官方流水线”做成镜像
星宇智算把上述 4 层架构打包成 「Agent-Mux」市场镜像,开箱集成:
- vLLM 0.4.3:连续批处理,吞吐提升 3.8×
- SGLang Runtime:针对多轮对话 Kernel 级优化
- Ray Serve 2.20:动态扩缩容,支持千级并发
- 19 个主流 7B~13B 模型已预下载至公共模型库,零流量费直接调用
用户只需在控制台选择「GPU服务器租用」→「Agent-Mux」镜像,即可一键创建多模型推理集群,无需自己调驱动、装 CUDA、配集群。
3. 费用对比:自建 19 模型并发,月租 < 900 元
| 配置 | Perplexity 官方 | 星宇智算自建 |
|---|---|---|
| 并发模型数 | 19 | 19 |
| 单卡显存 | 80 GB A100(共享) | 24 GB RTX 4090 |
| 节点数 | 不透明 | 4 台 |
| 计费方式 | 订阅制 | 按小时 |
| 月费用 | 200 美元(≈ 1 440 元) | 900 元 |
说明:星宇智算 RTX 4090 现价为 1.8 元/卡/小时,4 卡并行跑满 30 天≈ 5 184 元;但 Agent 类任务并非 7×24 满载,实测日均 6 小时即可覆盖高峰,实际账单 648 元,再加 200 GB 云硬盘与云存储,总成本 900 元内搞定。
4. 三步上车:GPU 云主机 → Docker → 3 行命令
-
注册领券
新用户注册星宇智算即送 10 元体验金,可抵 5.5 小时 RTX 4090,立即体验 GPU服务器租用。 -
租用实例
控制台选择「GPU 云主机」→「Agent-Mux」镜像→勾选 4 卡 RTX 4090,30 秒完成开机。 -
启动服务
bash
docker compose -f /public/agent-mux/docker-compose.yml up -d
ray job submit --working-dir ./apps -- python router_agent.py --model-num 19
3 行命令后,本地 8000 端口即暴露「类 Perplexity」接口,cURL 即可调用。
5. 展望:Agentic AI 时代,算力普惠决定落地速度
当多模型编排成为标配,“会写提示词”早已不够,谁能低成本调度 GPU 算力,谁就能在 Agentic AI 赛道抢先一步。星宇智算通过“按小时计费 + 预置镜像 + 公共模型库”三板斧,把 200 美元/月的门槛打到 十几美元水平,让个人开发者、高校实验室、初创公司都能玩得起 19 模型并行。
下一步,星宇智算还将上线 Auto-Scale 模式:根据请求量自动增减 GPU 节点,闲时关机 0 费用,进一步把“GPU 云主机”做成像自来水一样的随用随取。
200 美元太贵?来星宇智算,900 元把整个“Computer”搬回家,再送你 10 元跑第一程。
点击注册,立刻开始你的 AI 应用之旅。
