| 模型名称 | 厂商 | 特性 | 价格(星元) | 简介 |
|---|---|---|---|---|
| doubao-seed-2.0-lite | ![]() | 流式输出图像理解视频理解音频处理深度思考工具调用 | 输入价格: 600.00 / M tokens 命中缓存价格: 120.00 / M tokens 输出价格: 3600.00 / M tokens | 豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,同时升级Agent、Coding与GUI能力 |
| doubao-seed-2.0-mini | ![]() | 流式输出图像理解视频理解音频处理深度思考工具调用 | 输入价格: 200.00 / M tokens 命中缓存价格: 40.00 / M tokens 输出价格: 2000.00 / M tokens | 豆包大模型家族全模态理解模型,更短的思考长度,更高的tokens效率 |
| glm-tts | ![]() | 音频处理 | 文本字数: 0.2 / 字 | GLM-TTS 语音合成模型以新一代智谱语音大模型为核心,突破传统语音合成框架,通过上下文智能预判文本情绪与语调,显著提升语音自然度与表现力,让合成语音具备真实情感与生命力。 |
| glm-asr-2512 | ![]() | 音频处理 | 语音时长: 0.2 / 秒 | GLM-ASR-2512 是智谱新一代语音识别模型,支持将语音实时转换为高质量文字。无论是日常聊天、会议记录、工作文档,还是包含专业术语的场景,都能精准识别与转换,大幅提升输入与记录效率。 |
| qwen3-asr-flash | ![]() | 音频处理 | 语音时长计费: 0.22 / 秒 | 千问3-ASR-Flash是一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。 |
| qwen3-tts-instruct-flash | ![]() | 音频处理 | 文本字数计费: 0.08 / 字 | Qwen3-TTS-Flash模型是通义实验室最新推出的实时语音合成大模型,Instruct模型可通过自然语言进行合成效果的处理,确保在不同语境下,合成情感、表达高度贴合的语音。 |





