星桥API - 大模型接口服务 - 星宇智算

模型名称	特性	价格（星元）	简介
qwen3.7-max	流式输出深度思考工具调用结构化输出	输入价格: 6000.00 / M tokens 创建缓存价格: 7500.00 / M tokens 命中缓存价格: 1200.00 / M tokens 输出价格: 1800.00 / M tokens	Qwen3.7系列中规模最大、综合能力最强的Max模型，当前开放纯文本模型能力供体验。Qwen3.7是面向智能体时代的新一代旗舰模型，核心优势在于智能体能力的广度与深度：在编程、办公与生产力、长周期自
qwen3.7-plus	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 1600.00 / M tokens 创建缓存价格: 2000.00 / M tokens 命中缓存价格: 320.00 / M tokens 输出价格: 6400.00 / M tokens	Qwen3.7系列中高性价比Plus模型，在强大文本能力的基础上全面升级了视觉-语言能力，同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。其核心特色为多模态交互混合智能体能力，能够感知真
qwen3.6-plus	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 2000.00 / M tokens 创建缓存价格: 2500.00 / M tokens 命中缓存价格: 200.00 / M tokens 输出价格: 12000.00 / M tokens	Qwen3.6原生视觉语言系列Plus模型，展现出与当前顶尖前沿模型相媲美的卓越性能，模型效果相较3.5系列显著提升。
qwen3.6-flash	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 1200.00 / M tokens 创建缓存价格: 1500.00 / M tokens 命中缓存价格: 120.00 / M tokens 输出价格: 7200.00 / M tokens	Qwen3.6原生视觉语言系列Flash模型，模型效果相较3.5-Flash显著提升。本模型重点提升agentic coding能力（在多项代码智能体基准上大幅超越前代）、数学推理和代码推理能力；视觉
qwen3.5-plus	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 800.00 / M tokens 创建缓存价格: 1000.00 / M tokens 命中缓存价格: 80.00 / M tokens 输出价格: 4800.00 / M tokens	Qwen3.5原生视觉语言系列Plus模型，基于混合架构设计，融合了线性注意力机制与稀疏混合专家模型，实现了更高的推理效率。
qwen3.5-flash	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 200.00 / M tokens 创建缓存价格: 250.00 / M tokens 命中缓存价格: 20.00 / M tokens 输出价格: 2000.00 / M tokens	Qwen3.5原生视觉语言系列Flash模型，基于混合架构设计，融合了线性注意力机制与稀疏混合专家模型，实现了更高的推理效率。
glm-5.1	流式输出深度思考工具调用结构化输出	输入价格: 6000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 1300.00 / M tokens 输出价格: 24000.00 / M tokens	GLM-5.1 是智谱最新旗舰模型，代码能力大大增强，长程任务显著提升，能够在单次任务中持续、自主地工作长达 8 小时，完成从规划、执行到迭代优化的完整闭环，交付工程级成果。
glm-5	流式输出深度思考工具调用结构化输出	输入价格: 4000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 1000.00 / M tokens 输出价格: 18000.00 / M tokens	GLM-5 是智谱的基座模型，面向 Agentic Engineering 打造，能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。
glm-5-turbo	流式输出深度思考工具调用结构化输出	输入价格: 5000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 1200.00 / M tokens 输出价格: 22000.00 / M tokens	GLM-5-Turbo 是面向 OpenClaw 龙虾场景深度优化的基座模型。其从训练阶段就针对龙虾任务的核心需求进行专项优化，增强如工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力，使其
glm-5v-turbo	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 5000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 1200.00 / M tokens 输出价格: 22000.00 / M tokens	GLM-5V-Turbo 是智谱首个多模态 Coding 基座模型，面向视觉编程任务打造。能够原生处理图片、视频、文本等多模态输入，同时擅长长程规划、复杂编程和动作执行。
glm-4.6v	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 1000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 200.00 / M tokens 输出价格: 3000.00 / M tokens	GLM-4.6V 系列是 GLM 系列在多模态方向上的一次重要迭代，它将训练时上下文窗口提升到128k tokens，在视觉理解精度上达到同参数规模 SOTA。
glm-4.6v-flashx	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 150.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 30.00 / M tokens 输出价格: 1500.00 / M tokens	GLM-4.6V 系列是 GLM 系列在多模态方向上的一次重要迭代，它将训练时上下文窗口提升到128k tokens，在视觉理解精度上达到同参数规模 SOTA。
glm-embedding-3	文本向量	输入价格: 500.00 / M tokens	Embedding-3 是智谱AI 推出的第三代文本向量化模型，在前代基础上全面升级，提供更强的语义理解能力和更灵活的向量维度选择。
glm-embedding-2	文本向量	输入价格: 500.00 / M tokens	Embedding-2 是智谱AI 推出的第二代文本向量化模型，能够将文本转换为高维向量表示，用于语义相似性计算和搜索。
glm-rerank	文本排序	输入价格: 800.00 / M tokens	Rerank 是智谱AI 推出的重排序模型，能够计算文本之间的 score 值，对召回结果进行重排序。
aliyun-text-embedding-v4	文本向量	输入价格: 500.00 / M tokens	通义实验室基于Qwen3训练的多语言文本统一向量模型，相较V3版本在文本检索、聚类、分类性能大幅提升；在MTEB多语言、中英、Code检索等评测任务上效果提升15%~40%；
aliyun-text-embedding-v3	文本向量	输入价格: 500.00 / M tokens	通用文本向量，是通义实验室基于LLM底座的多语言文本统一向量模型，面向全球多个主流语种，提供高水准的向量服务，帮助开发者将文本数据快速转换为高质量的向量数据。
aliyun-qwen3-vl-embedding	多模态向量	输入价格: 700.00 / M tokens	基于Qwen3-VL底座训练的统一多模态向量模型，支持文本、图片、视频单模态/混合模态输入，输出统一表征向量，适用于跨模态检索、图搜、视频检索、图像聚类、复杂多模态信息检索、打标等场景
aliyun-tongyi-embedding-vision-plus	多模态向量	输入价格: 500.00 / M tokens	Tongyi-Embedding-Vision是基于LLM底座的视觉多模态表征模型，支持文本、图像、视频3种模态，具有以视觉为中心、全场景性能优异、高性价比的特点。
aliyun-tongyi-embedding-vision-flash	多模态向量	输入价格: 150.00 / M tokens	Tongyi-Embedding-Vision是基于LLM底座的视觉多模态表征模型，支持文本、图像、视频3种模态，具有以视觉为中心、全场景性能优异、高性价比的特点。
aliyun-qwen3-rerank	文本排序	输入价格: 500.00 / M tokens	基于Qwen LLM底座训练的文本排序模型，对输入的Query和候选Docs进行相关性排序，支持100+语种和长文本输入，适用于文本检索、RAG等场景，效果对齐开源Qwen3-Rerank系列模型。
aliyun-qwen3-vl-rerank	多模态排序	输入价格: 700.00 / M tokens	Qwen3-VL-Rerank重排模型，它能够深入理解文本、图片、视频的丰富多模态信息。
doubao-seed-2.0-pro	流式输出图像理解视频理解深度思考工具调用	输入价格: 3200.00 / M tokens 命中缓存价格: 640.00 / M tokens 输出价格: 16000.00 / M tokens	侧重长链路推理能力与复杂任务稳定性，适配真实业务中的复杂场景
doubao-seed-2.0-lite	流式输出图像理解视频理解音频处理深度思考工具调用	输入价格: 600.00 / M tokens 命中缓存价格: 120.00 / M tokens 输出价格: 3600.00 / M tokens	豆包大模型家族首款全模态理解模型，支持视频、图像、音频、文本原生统一理解，同时升级Agent、Coding与GUI能力
doubao-seed-2.0-mini	流式输出图像理解视频理解音频处理深度思考工具调用	输入价格: 200.00 / M tokens 命中缓存价格: 40.00 / M tokens 输出价格: 2000.00 / M tokens	豆包大模型家族全模态理解模型，更短的思考长度，更高的tokens效率
doubao-seed-2.0-code	流式输出图像理解视频理解深度思考工具调用	输入价格: 3200.00 / M tokens 命中缓存价格: 640.00 / M tokens 输出价格: 16000.00 / M tokens	Seed 2.0 的编程加强版，更适合 Agentic Coding
doubao-seed-character	流式输出工具调用	输入价格: 800.00 / M tokens 命中缓存价格: 160.00 / M tokens 输出价格: 2000.00 / M tokens	长旁白更细腻｜剧情推进更稳定｜角色对话更自然
doubao-embedding-vision	多模态向量	输入价格: 700.00 / M tokens	全新Seed1.6-Embedding-1215，相较于上一代0615版本，新版本实现了多项核心能力升级
MiniMax-M3	流式输出图像理解视频理解深度思考工具调用	输入价格: 2100.00 / M tokens 命中缓存价格: 420.00 / M tokens 输出价格: 8400.00 / M tokens	MiniMax M3 凭借业界领先的 Coding 与 Agentic 能力、1M 超长上下文窗口以及原生多模态特性，可出色胜任企业级长文档理解、高质量内容生成、代码编写、Bug 修复及原生应用构建等
MiniMax-M2.7	流式输出深度思考工具调用	输入价格: 2100.00 / M tokens 创建缓存价格: 2625.00 / M tokens 命中缓存价格: 420.00 / M tokens 输出价格: 8400.00 / M tokens	M2.7 能够自行构建复杂 Agent Harness，并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力，完成高度复杂的生产力任务。
MiniMax-M2.7-highspeed	流式输出深度思考工具调用	输入价格: 4200.00 / M tokens 创建缓存价格: 2625.00 / M tokens 命中缓存价格: 420.00 / M tokens 输出价格: 16800.00 / M tokens	与 M2.7 效果不变，速度大幅提升
MiniMax-M2.5	流式输出深度思考工具调用	输入价格: 2100.00 / M tokens 创建缓存价格: 2625.00 / M tokens 命中缓存价格: 210.00 / M tokens 输出价格: 8400.00 / M tokens	智能体世界的SOTA，专为智能体2.0设计，将编码扩展到现实世界包括工作空间、娱乐和个人助理。
MiniMax-M2.5-highspeed	流式输出深度思考工具调用	输入价格: 4200.00 / M tokens 创建缓存价格: 2625.00 / M tokens 命中缓存价格: 210.00 / M tokens 输出价格: 16800.00 / M tokens	与 M2.5 效果不变，速度大幅提升
kimi-k2.7-code	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 6500.00 / M tokens 命中缓存价格: 1300.00 / M tokens 输出价格: 27000.00 / M tokens	Kimi K2.7 Code 是 Kimi 迄今最智能的 Coding 模型，在长上下文中更可靠地遵循指令，能以更高的成功率完成编程任务，同时支持文本、图片与视频输入，思考模式。
kimi-k2.6	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 6500.00 / M tokens 命中缓存价格: 1100.00 / M tokens 输出价格: 27000.00 / M tokens	Kimi K2.6 是 Kimi 最新最智能的模型，Kimi K2.6 的通用 Agent、代码、视觉理解等综合能力得到全面提升。
kimi-k2.5	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 4000.00 / M tokens 命中缓存价格: 700.00 / M tokens 输出价格: 21000.00 / M tokens	Kimi K2.5 是 Kimi 在2026年最新推出的智能模型，在 Agent、代码、视觉理解及一系列通用智能任务上取得开源 SoTA 表现。
deepseek-v4-pro	流式输出深度思考工具调用结构化输出	输入价格: 3000.00 / M tokens 命中缓存价格: 25.00 / M tokens 输出价格: 6000.00 / M tokens	DeepSeek-V4-Pro 1.6T 参数的原生多模态旗舰，通过全新的 CSA+HCA 混合注意力架构，在复杂数学推理、长程代码工程及深度智能体协作领域代表了当前的行业顶尖水平。
deepseek-v4-flash	流式输出深度思考工具调用结构化输出	输入价格: 1000.00 / M tokens 命中缓存价格: 20.00 / M tokens 输出价格: 2000.00 / M tokens	DeepSeek-V4-Flash 专为高并发与低延迟设计的生产级利器，以 1M 上下文为全系标配，在极低成本下实现了媲美旗舰的推理表现与卓越的 Agent 响应效率。
hy3-preview	流式输出深度思考工具调用结构化输出	输入价格: 1200.00 / M tokens 命中缓存价格: 400.00 / M tokens 输出价格: 4000.00 / M tokens	混元 Hy3 preview 面向 Agent 工作负载设计，采用 295B/21B 激活的 MoE 架构。
ernie-5.1	流式输出深度思考工具调用	输入价格: 4000.00 / M tokens 输出价格: 18000.00 / M tokens	ERNIE 5.1是文心系列最新模型，基础能力全面升级，在智能体、知识、推理、深度搜索等方面均有显著提升。
ernie-5.0	流式输出图像理解视频理解深度思考工具调用	输入价格: 6000.00 / M tokens 输出价格: 24000.00 / M tokens	文心新一代模型文心5.0是原生全模态大模型，采用原生的全模态统一建模技术，将文本、图像、音频、视频联合建模，具备综合的全模态能力。
bce-embedding-v1	文本向量	输入价格: 500.00 / M tokens	Embedding-V1是基于百度文心大模型技术的文本表示模型，将文本转化为用数值表示的向量形式，用于文本检索、信息推荐、知识挖掘等场景。
qwen-image-2.0	文生图图生图图像编辑多参考图	生成图片: 200 / 张	Qwen-Image-2.0系列加速版模型，实现了图片生成和图片编辑的融合；具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感，细腻刻画写实场景、更强的语义遵循能力。
qwen-image-2.0-pro	文生图图生图图像编辑多参考图	生成图片: 500 / 张	Qwen-Image-2.0系列满血版模型，实现了图片生成和图片编辑的融合；具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感，细腻刻画写实场景、更强的语义遵循能力。
qwen-image-max	文生图	生成图片: 500 / 张	千问图像生成模型Max系列，在各类生成任务中表现出色，相较Plus系列大幅度降低生成图片的AI感，提升图像真实性；具备更真实的人物质感、更细腻的自然纹理、更美观的文字渲染。
glm-image	文生图	生成图片: 100 / 张	GLM-Image 是智谱新旗舰图像生成模型，兼顾全局指令理解与局部细节刻画，克服了海报、PPT、科普图等知识密集型场景生成难题。
cogview-4	文生图	生成图片: 60 / 张	CogView-4 是智谱首个支持生成汉字的开源文生图模型，在语义理解、图像生成质量、中英文字生成能力等方面全面提升。
cogview-3-flash	文生图	生成图片: 20 / 张	CogView-3-Flash 是智谱推出的图像生成模型，能够根据用户指令生成符合要求且美学评分更高的图像。
qwen-image-plus	文生图	生成图片: 200 / 张	千问图像生成模型Plus系列，擅长多样化艺术风格与文字渲染。
qwen-image-edit-max	图生图图像编辑多参考图	生成图片: 500 / 张	千问图像编辑模型Max系列，提供更稳定、更丰富的编辑能力：提升工业设计与几何推理能力；提升角色一致性；减轻偏移问题。
qwen-image-edit-plus	图生图图像编辑多参考图	生成图片: 200 / 张	千问系列图像编辑Plus模型，在首版Edit模型基础上进一步优化了推理性能与系统稳定性，大幅缩短图像生成与编辑的响应时间。
z-image-turbo	文生图	生成图片: 100 / 张	Z-Image-Turbo是在Artificial Analysis评测中荣登文生图开源模型世界第一的高效图像生成模型，仅用60亿参数和8步推理就能生成媲美大规模商业模型的照片级真实感图像。
wan2.6-t2i	文生图	生成图片: 200 / 张	万相2.6-文生图，画面质感、美学表现、指令遵循升级，在艺术风格精准控制、真实感人像、长文本生图及广泛历史文化IP覆盖上均表现出卓越能力，可生成高质量且富有表现力的视觉内容。
wan2.5-t2i-preview	文生图	生成图片: 200 / 张	万相2.5-文生图-Preview，全新升级模型架构。画面美学、设计感、真实质感显著提升，精准指令遵循，擅长中英文和小语种文字生成，支持复杂结构化长文本和图表、架构图等内容生成。
wan2.2-t2i-plus	文生图	生成图片: 200 / 张	全新升级的万相2.2文生图，更丰富的画面细节。在生成图像创意性、稳定性、写实质感方面全面升级，指令遵循更强，原生支持多种风格。支持最大200万像素生成，支持智能提示词改写等。
wan2.2-t2i-flash	文生图	生成图片: 140 / 张	全新升级的万相2.2文生图，更快的生成速度。在生成图像创意性、稳定性、写实质感方面全面升级，指令遵循更强，原生支持多种风格。支持最大200万像素生成，支持智能提示词改写等。
wan2.7-image	文生图图生图图像编辑多参考图	生成图片: 200 / 张	万相2.7-图像生成与编辑，支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑，在文字渲染、主体一致性、复杂指令遵循上都有更强表现
wan2.7-image-pro	文生图图生图图像编辑多参考图	生成图片: 500 / 张	万相2.7-图像生成与编辑旗舰版模型，支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑，在文字渲染、主体一致性、复杂指令遵循上都有更强表现。
wan2.6-image	图生图图像编辑多参考图	生成图片: 200 / 张	万相2.6-图像生成，全能图像生成模型，支持图文一体化推理生成，具备多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制，全面提升图像生成的一致性、可控性和表现力。
doubao-seedream-5.0-lite	文生图图生图图像编辑多参考图	生成图片: 220 / 张	字节跳动发布的最新图像创作模型。该模型首次搭载联网检索功能，能融合实时网络信息，提升生图时效性。同时，模型的聪明度进一步升级，能够精准解析复杂指令和视觉内容。
doubao-seedream-4.5	文生图图生图图像编辑多参考图	生成图片: 250 / 张	Seedream 4.5 整合了文生图、图生图、组图输出等能力，融合常识和推理能力。
doubao-seedream-4.0	文生图图生图图像编辑多参考图	生成图片: 200 / 张	Seedream 4.0 是基于领先架构的SOTA级多模态图像创作模型，其生成美感、指令遵循、结构完整度、主体保持一致性处于世界头部水平。
MiniMax-image-01	文生图图生图图像编辑	生成图片: 25 / 张	图像生成模型，画面表现细腻，支持文生图、图生图
open-image-2	文生图图生图图像编辑多参考图	输入价格: 50000.00 / M tokens 命中缓存价格: 12000.00 / M tokens 输出价格: 180000.00 / M tokens	顶尖生图模型
open-image-1.5	文生图图生图图像编辑多参考图	输入价格: 50000.00 / M tokens 命中缓存价格: 12000.00 / M tokens 输出价格: 180000.00 / M tokens	顶尖生图模型
Nano-Banana	文生图图生图图像编辑多参考图	输入价格: 2000.00 / M tokens 输出价格: 180000.00 / M tokens	主打极快的生成速度与低延迟效率，适合海量、高频的基础图像生成与快速图片编辑任务。
Nano-Banana-Pro	文生图图生图图像编辑多参考图	输入价格: 12000.00 / M tokens 输出价格: 750000.00 / M tokens	专为专业资产制作打造的旗舰模型。具备高级推理“思考”能力，能完美呈现高保真文本与精准排版。
Nano-Banana-2	文生图图生图图像编辑多参考图	输入价格: 3000.00 / M tokens 输出价格: 360000.00 / M tokens	在保持高效率的同时提升了画质，优化了对复杂构图与多样化艺术风格（如等距视角、贴纸素材）的理解与表现。
CogVideoX-3	文生视频图生视频首帧生视频首尾帧生视频	生成视频: 1000 / 个	CogVideoX-3 新增首尾帧生成功能，画面稳定度、清晰度大幅提升，主体大幅度运动流畅自然，指令遵循与物理真实模拟更佳，还提升了高清现实及 3D 风格场景表现。
CogVideoX-2	文生视频图生视频首帧生视频	生成视频: 500 / 个	CogVideoX-2 是智谱新一代视频生成大模型，图生视频能力大幅提升38%，在大幅度运动、画面稳定性、指令遵从、艺术风格与画面美感方面实现了显著优化。
CogVideoX-Flash	文生视频图生视频首帧生视频	生成视频: 100 / 个	CogVideoX-Flash 是智谱推出的视频生成模型，能够根据用户指令生成符合要求且美学评分更高的视频。
ViduQ1-Text	文生视频	生成视频: 2500 / 个	Vidu Q1 是 Vidu 新一代视频生成大模型，聚焦高质量视频创作，固定输出 5 秒、24 帧、1080P 规格内容。
ViduQ1-Image	图生视频首帧生视频	生成视频: 2500 / 个	Vidu Q1 是 Vidu 新一代视频生成大模型，聚焦高质量视频创作，固定输出 5 秒、24 帧、1080P 规格内容。
ViduQ1-Start-End	图生视频首尾帧生视频	生成视频: 2500 / 个	Vidu Q1 是 Vidu 新一代视频生成大模型，聚焦高质量视频创作，固定输出 5 秒、24 帧、1080P 规格内容。
Vidu2-Image	图生视频首帧生视频	生成视频: 1250 / 个	Vidu 2 视频生成大模型，平衡速度与质量，主攻图生视频、首尾帧功能，支持 4 秒时长下 720P 分辨率输出。
Vidu2-Start-End	图生视频首尾帧生视频	生成视频: 1250 / 个	Vidu 2 视频生成大模型，平衡速度与质量，主攻图生视频、首尾帧功能，支持 4 秒时长下 720P 分辨率输出。
Vidu2-Reference	图生视频参考生视频	生成视频: 2500 / 个	Vidu 2 视频生成大模型，平衡速度与质量，主攻图生视频、首尾帧功能，支持 4 秒时长下 720P 分辨率输出。
happyhorse-1.0-t2v	文生视频	720P: 900 / 秒 1080P: 1600 / 秒	HappyHorse-1.0-T2V支持文生视频，具备高度还原的动态画面生成能力，能够精准理解文本语义，输出流畅自然、细节丰富的高质量视频。
happyhorse-1.0-i2v	图生视频首帧生视频	720P: 900 / 秒 1080P: 1600 / 秒	HappyHorse-1.0-I2V支持图生视频，具备高度还原的动态画面生成能力，能够精准理解文本语义，输出流畅自然、细节丰富的高质量视频。
happyhorse-1.0-r2v	图生视频参考生视频	720P: 900 / 秒 1080P: 1600 / 秒	HappyHorse-1.0-R2V支持参考生视频，更加稳定的主体与场景参考，支持最多9张图片参考，能够精准保持创作意图，实现更强表现能力。
happyhorse-1.0-video-edit	文生视频	720P: 900 / 秒 1080P: 1600 / 秒	HappyHorse-1.0-Video-Edit支持视频编辑，自然语言指令编辑视频，可参考最多5张图片局部或全局编辑视频元素，能够精准复刻视频动态过程，实现更强表现能力。
doubao-seedance-2.0	文生视频图生视频首帧生视频首尾帧生视频参考生视频视频编辑	无参考视频，生成480P: 500 / 秒无参考视频，生成720P: 1000 / 秒无参考视频，生成1080P: 2500 / 秒有参考视频，生成480P: 300 / 秒有参考视频，生成720P: 600 / 秒有参考视频，生成1080P: 1500 / 秒	支持图像、视频、音频等多模态作为参考输入生成视频，还具备视频编辑、延长等能力，能高精度还原各类细节并稳定角色特征，具备极致拟真的视听稳定性，深度适配商业广告、影视制作与社交媒体营销等各大核心场景。
doubao-seedance-2.0-fast	文生视频图生视频首帧生视频首尾帧生视频参考生视频视频编辑	无参考视频，生成480P: 370 / 秒无参考视频，生成720P: 800 / 秒有参考视频，生成480P: 220 / 秒有参考视频，生成720P: 480 / 秒	Seedance 2.0 fast是豆包大模型团队推出的新一代多模态视频创作模型，它继承了Seedance 2.0模型的核心功能和优势，生成速度更快。
doubao-seedance-1.5-pro	文生视频图生视频首帧生视频首尾帧生视频参考生视频视频编辑	生成480P无声视频: 80 / 秒生成720P无声视频: 180 / 秒生成1080P无声视频: 390 / 秒生成480P有声视频: 160 / 秒生成720P有声视频: 350 / 秒生成1080P有声视频: 780 / 秒	可生成音画高精同步的视频内容。支持多人多语言对白，全面覆盖环境音、动作音、合成音、乐器音、背景音及人声，支持首尾帧，实现影视级叙事效果，满足影视、漫剧、电商及广告领域的高阶创作需求
kling-v3-omni	文生视频图生视频首帧生视频首尾帧生视频参考生视频	标准画质、无声、无参考视频: 600 / 秒标准画质、有声、无参考视频: 800 / 秒标准画质、无声、有参考视频: 900 / 秒高品质画质、无声、无参考视频: 800 / 秒高品质画质、有声、无参考视频: 1000 / 秒高品质画质、无声、有参考视频: 1200 / 秒 4K画质、无声、无参考视频: 3000 / 秒 4K画质、有声、无参考视频: 3000 / 秒	Kling V3 Omni（可灵视频3.0 Omni）是快手推出的全能型原生多模态视频大模型。它突破了传统视频生成的单一模式，将高清视频生成、音频生成（音画直出）、角色编辑与智能分镜推理深度融合。
glm-tts	音频处理	文本字数: 0.2 / 字	GLM-TTS 语音合成模型以新一代智谱语音大模型为核心，突破传统语音合成框架，通过上下文智能预判文本情绪与语调，显著提升语音自然度与表现力，让合成语音具备真实情感与生命力。
glm-asr-2512	音频处理	语音时长: 0.2 / 秒	GLM-ASR-2512 是智谱新一代语音识别模型，支持将语音实时转换为高质量文字。无论是日常聊天、会议记录、工作文档，还是包含专业术语的场景，都能精准识别与转换，大幅提升输入与记录效率。
qwen3-asr-flash	音频处理	语音时长计费: 0.22 / 秒	千问3-ASR-Flash是一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。
qwen3-tts-instruct-flash	音频处理	文本字数计费: 0.08 / 字	Qwen3-TTS-Flash模型是通义实验室最新推出的实时语音合成大模型，Instruct模型可通过自然语言进行合成效果的处理，确保在不同语境下，合成情感、表达高度贴合的语音。