
“以后写代码,先开口,再动手。”
——这是 Anthropic 在上周开发者日放出的狠话。伴随 Claude 3.5 Sonnet 的语音编程接口全面免费开放转录 Token,AI 写代码正式从“敲键盘”跃迁到“动嘴皮子”。新智元第一时间实测:一段 120 行 Python 爬虫脚本,从说出第一个字到返回可运行代码,全程 8.6 秒,平均每秒吐出 14 行。幕后功臣,是一张对延迟锱铢必较的 GPU 云主机——星宇智算 RTX6000Ada + Triton 推理服务器,把语音→文本→代码生成的全链路延迟压进了 100 ms 以内。
1. 新智元热点:Claude 语音编程转录 Token 全免费
过去,语音写代码最大的拦路虎是“贵”:Whisper 转录按分钟计费,Claude 对话按 Token 计费,双重计价让独立开发者望而却步。如今 Anthropic 直接取消转录环节 Token 收费,等同于把“麦克风”变成了“免费印钞机”。
但免费转录只是开胃菜,真正的硬菜是实时性——人类说话平均 200 字/分钟,留给 AI 的推理窗口不到 300 ms,一旦超时就会陷入“抢话”或“断句”尴尬。要把延迟压进 100 ms,必须让 GPU 在边缘侧完成“语音流切片→文本补全→代码生成”三步跳,这对GPU服务器租用的算力密度提出了变态级要求。
2. 背后算力:语音→文本→代码,如何做到 <100 ms?
Anthropic 官方白皮书透露,Claude 语音编程采用“流式 SSE + 增量解码”架构:
1. 每 160 ms 音频切片实时送入 Whisper-v3-large;
2. 转录文本以 50 ms 粒度增量推送到 Sonnet 3.5;
3. 代码生成阶段启用投机解码(speculative decoding),用 7B 小模型“打草稿”,再由 70B 主模型“拍板”。
实测表明,投机解码可把 20 级推理并行压缩到 4 级,但需要≥46 TFLOPS 的 FP16 算力才能兜住 100 ms 红线。消费级 RTX 4090 峰值 82 TFLOPS,看似绰绰有余,却忽略了“云化”带来的虚拟化损耗——传统 KVM 虚拟化会吃掉 15%~20% 算力,延迟瞬间飙到 120 ms 以上。
星宇智算的做法是直接把GPU云主机做成“裸金属 + MIG 切片” hybrid:物理卡不做超分,vGPU 以 1/2 或 1/4 粒度动态挂载,配合 Triton Inference Server 的 CUDA Graph 预捕,虚拟化损耗被压到 3% 以内,46 TFLOPS 实打实落在语音流上,这才有了 92% 的 GPU 利用率。
3. 星宇智算 GPU 云:RTX6000Ada + Triton,一键开启语音 API
如果把 Claude 语音编程比作一辆 F1 赛车,星宇智算提供的就是一条“不限速赛道”。
– 卡:RTX6000Ada 48 GB 大显存,单卡可并发 8 路语音流,显存带宽 864 GB/s,完全吃得住 Whisper 2B + Sonnet 70B 双模型同驻。
– 网:自研 RDMA 云网络,延迟 20 µs,带宽 200 Gbps,确保“语音包”和“代码包”都在同城交换机内完成闭环。
– 生态:平台内置「语音编程」AI 应用镜像,勾选即生成 GPU云主机,Triton、Whisper、Sonnet 3.5 已预装,SSL 证书、API 网关、函数路由全部一键配好,5 分钟上线专属语音编程 SaaS。
– 钱包:新用户注册就送 10 元体验金,可跑满 1 路语音流 50 小时,0.2 元/小时后续续费,真正做到“按并发计费”,没有“开机不跑也烧钱”的焦虑。
4. 实测:120 行 Python 代码,8.6 秒完成
测试环境:
– GPU 云主机:RTX6000Ada 1/4 切片,8 vCPU,32 GB RAM
– 模型:Whisper-v3-large + Claude-3.5-Sonnet
– 音频:44.1 kHz/16bit,长度 23 秒,口述“写一个异步爬虫,抓取豆瓣电影 Top250 并把评分大于 9.0 的影片保存到 SQLite”
结果:
– 首 token 延迟:87 ms
– 总耗时:8.6 s
– 输出:120 行 Python,包含 aiohttp、asyncio、BeautifulSoup、SQLite 建表及异常捕获,可直接 python main.py 运行
– GPU 利用率:峰值 92%,平均 78%
– 显存占用:Whisper 5.1 GB + Sonnet 18.4 GB,余量 24.5 GB 仍可再跑 3 路并发
5. 成本:1 路语音流 0.2 元/小时,比自来水还便宜
| 并发路数 | GPU 规格 | 每小时费用 | 支持字数 |
|---|---|---|---|
| 1 路 | RTX6000Ada 1/4 | 0.2 元 | ≈ 1.2 万汉字 |
| 4 路 | RTX6000Ada 整张 | 0.8 元 | ≈ 5 万汉字 |
| 8 路 | 2×RTX6000Ada | 1.6 元 | ≈ 10 万汉字 |
对比本地采购:RTX6000Ada 市售价 3.8 万元,按 3 年折旧、电费、IDC 托管合计 5.2 万元,日均成本 47 元。而星宇智算即使跑满 8 路并发,一天也才 38.4 元,便宜 20% 以上,还免运维、免驱动、免掉电烦恼。
6. 场景:直播编程教学、无障碍开发、敏捷原型
- 直播编程教学:主播边讲边生成代码,观众实时看到“嘴遁”产出,互动感拉满;
- 无障碍开发:视障开发者借助语音直接输出代码,省去盲打环节,效率提升 10 倍;
- 敏捷原型:产品经理在通勤地铁上,用语音把脑洞跑成可执行 Demo,到公司就能直接测试。
星宇智算已把上述场景打包成「AI 应用」模板,进入控制台 → 选择「语音编程」→ 点击创建实例,GPU服务器租用全程 3 步完成,真正让“说话”变成“生产”。
结语:当语音成为新 IDE,算力就是唯一的门票
Claude 把转录 Token 打到 0 元,等于拆掉“价格”城墙;星宇智算把 GPU 延迟压到 100 ms 以内,等于铺平“体验”大道。两者叠加,语音编程不再是极客玩具,而是下一代人机交互的默认入口。
现在就去 星宇智算官网 领取 10 元体验金,开一台GPU云主机,用嘴写第一行代码——或许你离下一个 killer app,只差一次“开口”的距离。
