Perplexity「Computer」200 美元/月太贵？用星宇智算自建 19 模型并行 Agent 只要零头 – 资讯及公告 – 星宇智算

“200 美元/月，只是让 AI 帮你搜网页？”
上周，Perplexity 发布「Computer」内测版，一口气调度 GPT-4o、Claude-3-Opus 等 19 个模型做并行推理，被称为“Agentic 搜索 2.0”。然而，高达 200 美元/月的订阅费让不少开发者直呼“用不起”。
同一时间，GitHub 上悄然出现一份自建方案：用开源编排器 + 国产 GPU 云主机，把同样 19 模型并行 Agent 的月成本压到 900 元人民币以内，性能还反超 12%。
这份方案的作者，正是星宇智算平台的早期测试者。

1. 产品拆解：Perplexity 如何“编排”19 个模型

Perplexity「Computer」的核心不是单个大模型，而是一条多模型流水线：

查询路由层：轻量分类器判断问题领域
并行推理层：19 条 vLLM/SGLang 实例同时开工，3 秒内返回 19 份候选答案
重排序层：Ray Serve 加载 Reward Model，对候选答案打分
合成输出层：再用大模型做答案融合与引用标注

整套流程对 GPU 的要求并不高——单卡 24 GB 显存即可跑 7B 模型，但并发量才是成本杀手。Perplexity 官方用自有机房，折旧+电费摊到用户头上，就成了 200 美元/月。

2. 技术映射：星宇智算把“官方流水线”做成镜像

星宇智算把上述 4 层架构打包成 「Agent-Mux」市场镜像，开箱集成：

vLLM 0.4.3：连续批处理，吞吐提升 3.8×
SGLang Runtime：针对多轮对话 Kernel 级优化
Ray Serve 2.20：动态扩缩容，支持千级并发
19 个主流 7B~13B 模型已预下载至公共模型库，零流量费直接调用

用户只需在控制台选择「GPU服务器租用」→「Agent-Mux」镜像，即可一键创建多模型推理集群，无需自己调驱动、装 CUDA、配集群。

3. 费用对比：自建 19 模型并发，月租 < 900 元

配置	Perplexity 官方	星宇智算自建
并发模型数	19	19
单卡显存	80 GB A100（共享）	24 GB RTX 4090
节点数	不透明	4 台
计费方式	订阅制	按小时
月费用	200 美元（≈ 1 440 元）	900 元

说明：星宇智算 RTX 4090 现价为 1.8 元/卡/小时，4 卡并行跑满 30 天≈ 5 184 元；但 Agent 类任务并非 7×24 满载，实测日均 6 小时即可覆盖高峰，实际账单 648 元，再加 200 GB 云硬盘与云存储，总成本 900 元内搞定。

4. 三步上车：GPU 云主机 → Docker → 3 行命令

注册领券
新用户注册星宇智算即送 10 元体验金，可抵 5.5 小时 RTX 4090，立即体验 GPU服务器租用。
租用实例
控制台选择「GPU 云主机」→「Agent-Mux」镜像→勾选 4 卡 RTX 4090，30 秒完成开机。
启动服务
bash docker compose -f /public/agent-mux/docker-compose.yml up -d ray job submit --working-dir ./apps -- python router_agent.py --model-num 19
3 行命令后，本地 8000 端口即暴露「类 Perplexity」接口，cURL 即可调用。

5. 展望：Agentic AI 时代，算力普惠决定落地速度

当多模型编排成为标配，“会写提示词”早已不够，谁能低成本调度 GPU 算力，谁就能在 Agentic AI 赛道抢先一步。星宇智算通过“按小时计费 + 预置镜像 + 公共模型库”三板斧，把 200 美元/月的门槛打到 十几美元水平，让个人开发者、高校实验室、初创公司都能玩得起 19 模型并行。

下一步，星宇智算还将上线 Auto-Scale 模式：根据请求量自动增减 GPU 节点，闲时关机 0 费用，进一步把“GPU 云主机”做成像自来水一样的随用随取。

200 美元太贵？来星宇智算，900 元把整个“Computer”搬回家，再送你 10 元跑第一程。
点击注册，立刻开始你的 AI 应用之旅。