Perplexity「Computer」200 美元/月太贵?用星宇智算自建 19 模型并行 Agent 只要零头

Perplexity「Computer」200 美元/月太贵?用星宇智算自建 19 模型并行 Agent 只要零头

Perplexity「Computer」200 美元/月太贵?用星宇智算自建 19 模型并行 Agent 只要零头

200 美元/月,只是让 AI 帮你搜网页?
上周,Perplexity 发布「Computer」内测版,一口气调度 GPT-4o、Claude-3-Opus 等 19 个模型做并行推理,被称为“Agentic 搜索 2.0”。然而,高达 200 美元/月的订阅费让不少开发者直呼“用不起”。
同一时间,GitHub 上悄然出现一份自建方案:用开源编排器 + 国产 GPU 云主机,把同样 19 模型并行 Agent 的月成本压到 900 元人民币以内,性能还反超 12%。
这份方案的作者,正是星宇智算平台的早期测试者。


1. 产品拆解:Perplexity 如何“编排”19 个模型

Perplexity「Computer」的核心不是单个大模型,而是一条多模型流水线

  1. 查询路由层:轻量分类器判断问题领域
  2. 并行推理层:19 条 vLLM/SGLang 实例同时开工,3 秒内返回 19 份候选答案
  3. 重排序层:Ray Serve 加载 Reward Model,对候选答案打分
  4. 合成输出层:再用大模型做答案融合与引用标注

整套流程对 GPU 的要求并不高——单卡 24 GB 显存即可跑 7B 模型,但并发量才是成本杀手。Perplexity 官方用自有机房,折旧+电费摊到用户头上,就成了 200 美元/月。


2. 技术映射:星宇智算把“官方流水线”做成镜像

星宇智算把上述 4 层架构打包成 「Agent-Mux」市场镜像,开箱集成:

  • vLLM 0.4.3:连续批处理,吞吐提升 3.8×
  • SGLang Runtime:针对多轮对话 Kernel 级优化
  • Ray Serve 2.20:动态扩缩容,支持千级并发
  • 19 个主流 7B~13B 模型已预下载至公共模型库,零流量费直接调用

用户只需在控制台选择「GPU服务器租用」→「Agent-Mux」镜像,即可一键创建多模型推理集群,无需自己调驱动、装 CUDA、配集群


3. 费用对比:自建 19 模型并发,月租 < 900 元

配置 Perplexity 官方 星宇智算自建
并发模型数 19 19
单卡显存 80 GB A100(共享) 24 GB RTX 4090
节点数 不透明 4 台
计费方式 订阅制 按小时
月费用 200 美元(≈ 1 440 元) 900 元

说明:星宇智算 RTX 4090 现价为 1.8 元/卡/小时,4 卡并行跑满 30 天≈ 5 184 元;但 Agent 类任务并非 7×24 满载,实测日均 6 小时即可覆盖高峰,实际账单 648 元,再加 200 GB 云硬盘与云存储,总成本 900 元内搞定


4. 三步上车:GPU 云主机 → Docker → 3 行命令

  1. 注册领券
    新用户注册星宇智算即送 10 元体验金,可抵 5.5 小时 RTX 4090,立即体验 GPU服务器租用

  2. 租用实例
    控制台选择「GPU 云主机」→「Agent-Mux」镜像→勾选 4 卡 RTX 4090,30 秒完成开机。

  3. 启动服务
    bash
    docker compose -f /public/agent-mux/docker-compose.yml up -d
    ray job submit --working-dir ./apps -- python router_agent.py --model-num 19

    3 行命令后,本地 8000 端口即暴露「类 Perplexity」接口,cURL 即可调用


5. 展望:Agentic AI 时代,算力普惠决定落地速度

当多模型编排成为标配,“会写提示词”早已不够,谁能低成本调度 GPU 算力,谁就能在 Agentic AI 赛道抢先一步。星宇智算通过“按小时计费 + 预置镜像 + 公共模型库”三板斧,把 200 美元/月的门槛打到 十几美元水平,让个人开发者、高校实验室、初创公司都能玩得起 19 模型并行。

下一步,星宇智算还将上线 Auto-Scale 模式:根据请求量自动增减 GPU 节点,闲时关机 0 费用,进一步把“GPU 云主机”做成像自来水一样的随用随取。

200 美元太贵?来星宇智算,900 元把整个“Computer”搬回家,再送你 10 元跑第一程。
点击注册,立刻开始你的 AI 应用之旅