模型名称厂商特性价格(星元)简介
doubao-seed-2.0-lite
厂商
流式输出图像理解视频理解音频处理深度思考工具调用
输入价格: 600.00 / M tokens
命中缓存价格: 120.00 / M tokens
输出价格: 3600.00 / M tokens

豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,同时升级Agent、Coding与GUI能力

doubao-seed-2.0-mini
厂商
流式输出图像理解视频理解音频处理深度思考工具调用
输入价格: 200.00 / M tokens
命中缓存价格: 40.00 / M tokens
输出价格: 2000.00 / M tokens

豆包大模型家族全模态理解模型,更短的思考长度,更高的tokens效率

glm-tts
厂商
音频处理
文本字数: 0.2 /

GLM-TTS 语音合成模型以新一代智谱语音大模型为核心,突破传统语音合成框架,通过上下文智能预判文本情绪与语调,显著提升语音自然度与表现力,让合成语音具备真实情感与生命力。

glm-asr-2512
厂商
音频处理
语音时长: 0.2 /

GLM-ASR-2512 是智谱新一代语音识别模型,支持将语音实时转换为高质量文字。无论是日常聊天、会议记录、工作文档,还是包含专业术语的场景,都能精准识别与转换,大幅提升输入与记录效率。

qwen3-asr-flash
厂商
音频处理
语音时长计费: 0.22 /

千问3-ASR-Flash是一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。

qwen3-tts-instruct-flash
厂商
音频处理
文本字数计费: 0.08 /

Qwen3-TTS-Flash模型是通义实验室最新推出的实时语音合成大模型,Instruct模型可通过自然语言进行合成效果的处理,确保在不同语境下,合成情感、表达高度贴合的语音。

联系我们联系我们