模型名称厂商特性价格(星元)简介
qwen3.7-max
厂商
流式输出深度思考工具调用结构化输出
输入价格: 6000.00 / M tokens
创建缓存价格: 7500.00 / M tokens
命中缓存价格: 1200.00 / M tokens
输出价格: 1800.00 / M tokens

Qwen3.7系列中规模最大、综合能力最强的Max模型,当前开放纯文本模型能力供体验。Qwen3.7是面向智能体时代的新一代旗舰模型,核心优势在于智能体能力的广度与深度:在编程、办公与生产力、长周期自

qwen3.7-plus
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 1600.00 / M tokens
创建缓存价格: 2000.00 / M tokens
命中缓存价格: 320.00 / M tokens
输出价格: 6400.00 / M tokens

Qwen3.7系列中高性价比Plus模型,在强大文本能力的基础上全面升级了视觉-语言能力,同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。其核心特色为多模态交互混合智能体能力,能够感知真

qwen3.6-plus
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 2000.00 / M tokens
创建缓存价格: 2500.00 / M tokens
命中缓存价格: 200.00 / M tokens
输出价格: 12000.00 / M tokens

Qwen3.6原生视觉语言系列Plus模型,展现出与当前顶尖前沿模型相媲美的卓越性能,模型效果相较3.5系列显著提升。

qwen3.6-flash
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 1200.00 / M tokens
创建缓存价格: 1500.00 / M tokens
命中缓存价格: 120.00 / M tokens
输出价格: 7200.00 / M tokens

Qwen3.6原生视觉语言系列Flash模型,模型效果相较3.5-Flash显著提升。本模型重点提升agentic coding能力(在多项代码智能体基准上大幅超越前代)、数学推理和代码推理能力;视觉

qwen3.5-plus
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 800.00 / M tokens
创建缓存价格: 1000.00 / M tokens
命中缓存价格: 80.00 / M tokens
输出价格: 4800.00 / M tokens

Qwen3.5原生视觉语言系列Plus模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。

qwen3.5-flash
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 200.00 / M tokens
创建缓存价格: 250.00 / M tokens
命中缓存价格: 20.00 / M tokens
输出价格: 2000.00 / M tokens

Qwen3.5原生视觉语言系列Flash模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。

glm-5.1
厂商
流式输出深度思考工具调用结构化输出
输入价格: 6000.00 / M tokens
创建缓存价格: 0.00 / M tokens
命中缓存价格: 1300.00 / M tokens
输出价格: 24000.00 / M tokens

GLM-5.1 是智谱最新旗舰模型,代码能力大大增强,长程任务显著提升,能够在单次任务中持续、自主地工作长达 8 小时,完成从规划、执行到迭代优化的完整闭环,交付工程级成果。

glm-5
厂商
流式输出深度思考工具调用结构化输出
输入价格: 4000.00 / M tokens
创建缓存价格: 0.00 / M tokens
命中缓存价格: 1000.00 / M tokens
输出价格: 18000.00 / M tokens

GLM-5 是智谱的基座模型,面向 Agentic Engineering 打造,能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。

glm-5-turbo
厂商
流式输出深度思考工具调用结构化输出
输入价格: 5000.00 / M tokens
创建缓存价格: 0.00 / M tokens
命中缓存价格: 1200.00 / M tokens
输出价格: 22000.00 / M tokens

GLM-5-Turbo 是面向 OpenClaw 龙虾场景深度优化的基座模型。 其从训练阶段就针对龙虾任务的核心需求进行专项优化,增强如工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力,使其

glm-5v-turbo
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 5000.00 / M tokens
创建缓存价格: 0.00 / M tokens
命中缓存价格: 1200.00 / M tokens
输出价格: 22000.00 / M tokens

GLM-5V-Turbo 是智谱首个多模态 Coding 基座模型,面向视觉编程任务打造。能够原生处理图片、视频、文本等多模态输入,同时擅长长程规划、复杂编程和动作执行。

glm-4.6v
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 1000.00 / M tokens
创建缓存价格: 0.00 / M tokens
命中缓存价格: 200.00 / M tokens
输出价格: 3000.00 / M tokens

GLM-4.6V 系列是 GLM 系列在多模态方向上的一次重要迭代,它将训练时上下文窗口提升到128k tokens,在视觉理解精度上达到同参数规模 SOTA。

glm-4.6v-flashx
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 150.00 / M tokens
创建缓存价格: 0.00 / M tokens
命中缓存价格: 30.00 / M tokens
输出价格: 1500.00 / M tokens

GLM-4.6V 系列是 GLM 系列在多模态方向上的一次重要迭代,它将训练时上下文窗口提升到128k tokens,在视觉理解精度上达到同参数规模 SOTA。

glm-embedding-3
厂商
文本向量
输入价格: 500.00 / M tokens

Embedding-3 是智谱AI 推出的第三代文本向量化模型,在前代基础上全面升级,提供更强的语义理解能力和更灵活的向量维度选择。

glm-embedding-2
厂商
文本向量
输入价格: 500.00 / M tokens

Embedding-2 是智谱AI 推出的第二代文本向量化模型,能够将文本转换为高维向量表示,用于语义相似性计算和搜索。

glm-rerank
厂商
文本排序
输入价格: 800.00 / M tokens

Rerank 是智谱AI 推出的重排序模型,能够计算文本之间的 score 值,对召回结果进行重排序。

aliyun-text-embedding-v4
厂商
文本向量
输入价格: 500.00 / M tokens

通义实验室基于Qwen3训练的多语言文本统一向量模型,相较V3版本在文本检索、聚类、分类性能大幅提升;在MTEB多语言、中英、Code检索等评测任务上效果提升15%~40%;

aliyun-text-embedding-v3
厂商
文本向量
输入价格: 500.00 / M tokens

通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。

aliyun-qwen3-vl-embedding
厂商
多模态向量
输入价格: 700.00 / M tokens

基于Qwen3-VL底座训练的统一多模态向量模型,支持文本、图片、视频单模态/混合模态输入,输出统一表征向量,适用于跨模态检索、图搜、视频检索、图像聚类、复杂多模态信息检索、打标等场景

aliyun-tongyi-embedding-vision-plus
厂商
多模态向量
输入价格: 500.00 / M tokens

Tongyi-Embedding-Vision是基于LLM底座的视觉多模态表征模型,支持文本、图像、视频3种模态,具有以视觉为中心、全场景性能优异、高性价比的特点。

aliyun-tongyi-embedding-vision-flash
厂商
多模态向量
输入价格: 150.00 / M tokens

Tongyi-Embedding-Vision是基于LLM底座的视觉多模态表征模型,支持文本、图像、视频3种模态,具有以视觉为中心、全场景性能优异、高性价比的特点。

aliyun-qwen3-rerank
厂商
文本排序
输入价格: 500.00 / M tokens

基于Qwen LLM底座训练的文本排序模型,对输入的Query和候选Docs进行相关性排序,支持100+语种和长文本输入,适用于文本检索、RAG等场景,效果对齐开源Qwen3-Rerank系列模型。

aliyun-qwen3-vl-rerank
厂商
多模态排序
输入价格: 700.00 / M tokens

Qwen3-VL-Rerank重排模型,它能够深入理解文本、图片、视频的丰富多模态信息。

doubao-seed-2.0-pro
厂商
流式输出图像理解视频理解深度思考工具调用
输入价格: 3200.00 / M tokens
命中缓存价格: 640.00 / M tokens
输出价格: 16000.00 / M tokens

侧重长链路推理能力与复杂任务稳定性,适配真实业务中的复杂场景

doubao-seed-2.0-lite
厂商
流式输出图像理解视频理解音频处理深度思考工具调用
输入价格: 600.00 / M tokens
命中缓存价格: 120.00 / M tokens
输出价格: 3600.00 / M tokens

豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,同时升级Agent、Coding与GUI能力

doubao-seed-2.0-mini
厂商
流式输出图像理解视频理解音频处理深度思考工具调用
输入价格: 200.00 / M tokens
命中缓存价格: 40.00 / M tokens
输出价格: 2000.00 / M tokens

豆包大模型家族全模态理解模型,更短的思考长度,更高的tokens效率

doubao-seed-2.0-code
厂商
流式输出图像理解视频理解深度思考工具调用
输入价格: 3200.00 / M tokens
命中缓存价格: 640.00 / M tokens
输出价格: 16000.00 / M tokens

Seed 2.0 的编程加强版,更适合 Agentic Coding

doubao-seed-character
厂商
流式输出工具调用
输入价格: 800.00 / M tokens
命中缓存价格: 160.00 / M tokens
输出价格: 2000.00 / M tokens

长旁白更细腻|剧情推进更稳定|角色对话更自然

doubao-embedding-vision
厂商
多模态向量
输入价格: 700.00 / M tokens

全新Seed1.6-Embedding-1215,相较于上一代0615版本,新版本实现了多项核心能力升级

MiniMax-M3
厂商
流式输出图像理解视频理解深度思考工具调用
输入价格: 2100.00 / M tokens
命中缓存价格: 420.00 / M tokens
输出价格: 8400.00 / M tokens

MiniMax M3 凭借业界领先的 Coding 与 Agentic 能力、1M 超长上下文窗口以及原生多模态特性,可出色胜任企业级长文档理解、高质量内容生成、代码编写、Bug 修复及原生应用构建等

MiniMax-M2.7
厂商
流式输出深度思考工具调用
输入价格: 2100.00 / M tokens
创建缓存价格: 2625.00 / M tokens
命中缓存价格: 420.00 / M tokens
输出价格: 8400.00 / M tokens

M2.7 能够自行构建复杂 Agent Harness,并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力,完成高度复杂的生产力任务。

MiniMax-M2.7-highspeed
厂商
流式输出深度思考工具调用
输入价格: 4200.00 / M tokens
创建缓存价格: 2625.00 / M tokens
命中缓存价格: 420.00 / M tokens
输出价格: 16800.00 / M tokens

与 M2.7 效果不变,速度大幅提升

MiniMax-M2.5
厂商
流式输出深度思考工具调用
输入价格: 2100.00 / M tokens
创建缓存价格: 2625.00 / M tokens
命中缓存价格: 210.00 / M tokens
输出价格: 8400.00 / M tokens

智能体世界的SOTA,专为智能体2.0设计,将编码扩展到现实世界包括工作空间、娱乐和个人助理。

MiniMax-M2.5-highspeed
厂商
流式输出深度思考工具调用
输入价格: 4200.00 / M tokens
创建缓存价格: 2625.00 / M tokens
命中缓存价格: 210.00 / M tokens
输出价格: 16800.00 / M tokens

与 M2.5 效果不变,速度大幅提升

kimi-k2.7-code
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 6500.00 / M tokens
命中缓存价格: 1300.00 / M tokens
输出价格: 27000.00 / M tokens

Kimi K2.7 Code 是 Kimi 迄今最智能的 Coding 模型,在长上下文中更可靠地遵循指令,能以更高的成功率完成编程任务,同时支持文本、图片与视频输入,思考模式。

kimi-k2.6
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 6500.00 / M tokens
命中缓存价格: 1100.00 / M tokens
输出价格: 27000.00 / M tokens

Kimi K2.6 是 Kimi 最新最智能的模型,Kimi K2.6 的通用 Agent、代码、视觉理解等综合能力得到全面提升。

kimi-k2.5
厂商
流式输出图像理解视频理解深度思考工具调用结构化输出
输入价格: 4000.00 / M tokens
命中缓存价格: 700.00 / M tokens
输出价格: 21000.00 / M tokens

Kimi K2.5 是 Kimi 在2026年最新推出的智能模型,在 Agent、代码、视觉理解及一系列通用智能任务上取得开源 SoTA 表现。

deepseek-v4-pro
厂商
流式输出深度思考工具调用结构化输出
输入价格: 3000.00 / M tokens
命中缓存价格: 25.00 / M tokens
输出价格: 6000.00 / M tokens

DeepSeek-V4-Pro 1.6T 参数的原生多模态旗舰,通过全新的 CSA+HCA 混合注意力架构,在复杂数学推理、长程代码工程及深度智能体协作领域代表了当前的行业顶尖水平。

deepseek-v4-flash
厂商
流式输出深度思考工具调用结构化输出
输入价格: 1000.00 / M tokens
命中缓存价格: 20.00 / M tokens
输出价格: 2000.00 / M tokens

DeepSeek-V4-Flash 专为高并发与低延迟设计的生产级利器,以 1M 上下文为全系标配,在极低成本下实现了媲美旗舰的推理表现与卓越的 Agent 响应效率。

hy3-preview
厂商
流式输出深度思考工具调用结构化输出
输入价格: 1200.00 / M tokens
命中缓存价格: 400.00 / M tokens
输出价格: 4000.00 / M tokens

混元 Hy3 preview 面向 Agent 工作负载设计,采用 295B/21B 激活的 MoE 架构。

ernie-5.1
厂商
流式输出深度思考工具调用
输入价格: 4000.00 / M tokens
输出价格: 18000.00 / M tokens

ERNIE 5.1是文心系列最新模型,基础能力全面升级,在智能体、知识、推理、深度搜索等方面均有显著提升。

ernie-5.0
厂商
流式输出图像理解视频理解深度思考工具调用
输入价格: 6000.00 / M tokens
输出价格: 24000.00 / M tokens

文心新一代模型文心5.0是原生全模态大模型,采用原生的全模态统一建模技术,将文本、图像、音频、视频联合建模,具备综合的全模态能力。

bce-embedding-v1
厂商
文本向量
输入价格: 500.00 / M tokens

Embedding-V1是基于百度文心大模型技术的文本表示模型,将文本转化为用数值表示的向量形式,用于文本检索、信息推荐、知识挖掘等场景。

qwen-image-2.0
厂商
文生图图生图图像编辑多参考图
生成图片: 200 /

Qwen-Image-2.0系列加速版模型,实现了图片生成和图片编辑的融合;具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感,细腻刻画写实场景、更强的语义遵循能力。

qwen-image-2.0-pro
厂商
文生图图生图图像编辑多参考图
生成图片: 500 /

Qwen-Image-2.0系列满血版模型,实现了图片生成和图片编辑的融合;具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感,细腻刻画写实场景、更强的语义遵循能力。

qwen-image-max
厂商
文生图
生成图片: 500 /

千问图像生成模型Max系列,在各类生成任务中表现出色,相较Plus系列大幅度降低生成图片的AI感,提升图像真实性;具备更真实的人物质感、更细腻的自然纹理、更美观的文字渲染。

glm-image
厂商
文生图
生成图片: 100 /

GLM-Image 是智谱新旗舰图像生成模型, 兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题。

cogview-4
厂商
文生图
生成图片: 60 /

CogView-4 是智谱首个支持生成汉字的开源文生图模型,在语义理解、图像生成质量、中英文字生成能力等方面全面提升。

cogview-3-flash
厂商
文生图
生成图片: 20 /

CogView-3-Flash 是智谱推出的图像生成模型,能够根据用户指令生成符合要求且美学评分更高的图像。

qwen-image-plus
厂商
文生图
生成图片: 200 /

千问图像生成模型Plus系列,擅长多样化艺术风格与文字渲染。

qwen-image-edit-max
厂商
图生图图像编辑多参考图
生成图片: 500 /

千问图像编辑模型Max系列,提供更稳定、更丰富的编辑能力:提升工业设计与几何推理能力;提升角色一致性;减轻偏移问题。

qwen-image-edit-plus
厂商
图生图图像编辑多参考图
生成图片: 200 /

千问系列图像编辑Plus模型,在首版Edit模型基础上进一步优化了推理性能与系统稳定性,大幅缩短图像生成与编辑的响应时间。

z-image-turbo
厂商
文生图
生成图片: 100 /

Z-Image-Turbo是在Artificial Analysis评测中荣登文生图开源模型世界第一的高效图像生成模型,仅用60亿参数和8步推理就能生成媲美大规模商业模型的照片级真实感图像。

wan2.6-t2i
厂商
文生图
生成图片: 200 /

万相2.6-文生图,画面质感、美学表现、指令遵循升级,在艺术风格精准控制、真实感人像、长文本生图及广泛历史文化IP覆盖上均表现出卓越能力,可生成高质量且富有表现力的视觉内容。

wan2.5-t2i-preview
厂商
文生图
生成图片: 200 /

万相2.5-文生图-Preview,全新升级模型架构。画面美学、设计感、真实质感显著提升,精准指令遵循,擅长中英文和小语种文字生成,支持复杂结构化长文本和图表、架构图等内容生成。

wan2.2-t2i-plus
厂商
文生图
生成图片: 200 /

全新升级的万相2.2文生图,更丰富的画面细节。在生成图像创意性、稳定性、写实质感方面全面升级,指令遵循更强,原生支持多种风格。支持最大200万像素生成,支持智能提示词改写等。

wan2.2-t2i-flash
厂商
文生图
生成图片: 140 /

全新升级的万相2.2文生图,更快的生成速度。在生成图像创意性、稳定性、写实质感方面全面升级,指令遵循更强,原生支持多种风格。支持最大200万像素生成,支持智能提示词改写等。

wan2.7-image
厂商
文生图图生图图像编辑多参考图
生成图片: 200 /

万相2.7-图像生成与编辑,支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑,在文字渲染、主体一致性、复杂指令遵循上都有更强表现

wan2.7-image-pro
厂商
文生图图生图图像编辑多参考图
生成图片: 500 /

万相2.7-图像生成与编辑旗舰版模型,支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑,在文字渲染、主体一致性、复杂指令遵循上都有更强表现。

wan2.6-image
厂商
图生图图像编辑多参考图
生成图片: 200 /

万相2.6-图像生成,全能图像生成模型,支持图文一体化推理生成,具备多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制,全面提升图像生成的一致性、可控性和表现力。

doubao-seedream-5.0-lite
厂商
文生图图生图图像编辑多参考图
生成图片: 220 /

字节跳动发布的最新图像创作模型。该模型首次搭载联网检索功能,能融合实时网络信息,提升生图时效性。同时,模型的聪明度进一步升级,能够精准解析复杂指令和视觉内容。

doubao-seedream-4.5
厂商
文生图图生图图像编辑多参考图
生成图片: 250 /

Seedream 4.5 整合了文生图、图生图、组图输出等能力,融合常识和推理能力。

doubao-seedream-4.0
厂商
文生图图生图图像编辑多参考图
生成图片: 200 /

Seedream 4.0 是基于领先架构的SOTA级多模态图像创作模型,其生成美感、指令遵循、结构完整度、主体保持一致性处于世界头部水平。

MiniMax-image-01
厂商
文生图图生图图像编辑
生成图片: 25 /

图像生成模型,画面表现细腻,支持文生图、图生图

open-image-2
厂商
文生图图生图图像编辑多参考图
输入价格: 50000.00 / M tokens
命中缓存价格: 12000.00 / M tokens
输出价格: 180000.00 / M tokens

顶尖生图模型

open-image-1.5
厂商
文生图图生图图像编辑多参考图
输入价格: 50000.00 / M tokens
命中缓存价格: 12000.00 / M tokens
输出价格: 180000.00 / M tokens

顶尖生图模型

Nano-Banana
厂商
文生图图生图图像编辑多参考图
输入价格: 2000.00 / M tokens
输出价格: 180000.00 / M tokens

主打极快的生成速度与低延迟效率,适合海量、高频的基础图像生成与快速图片编辑任务。

Nano-Banana-Pro
厂商
文生图图生图图像编辑多参考图
输入价格: 12000.00 / M tokens
输出价格: 750000.00 / M tokens

专为专业资产制作打造的旗舰模型。具备高级推理“思考”能力,能完美呈现高保真文本与精准排版。

Nano-Banana-2
厂商
文生图图生图图像编辑多参考图
输入价格: 3000.00 / M tokens
输出价格: 360000.00 / M tokens

在保持高效率的同时提升了画质,优化了对复杂构图与多样化艺术风格(如等距视角、贴纸素材)的理解与表现。

CogVideoX-3
厂商
文生视频图生视频首帧生视频首尾帧生视频
生成视频: 1000 /

CogVideoX-3 新增首尾帧生成功能,画面稳定度、清晰度大幅提升,主体大幅度运动流畅自然,指令遵循与物理真实模拟更佳,还提升了高清现实及 3D 风格场景表现。

CogVideoX-2
厂商
文生视频图生视频首帧生视频
生成视频: 500 /

CogVideoX-2 是智谱新一代视频生成大模型,图生视频能力大幅提升38%,在大幅度运动、画面稳定性、指令遵从、艺术风格与画面美感方面实现了显著优化。

CogVideoX-Flash
厂商
文生视频图生视频首帧生视频
生成视频: 100 /

CogVideoX-Flash 是智谱推出的视频生成模型,能够根据用户指令生成符合要求且美学评分更高的视频。

ViduQ1-Text
厂商
文生视频
生成视频: 2500 /

Vidu Q1 是 Vidu 新一代视频生成大模型,聚焦高质量视频创作,固定输出 5 秒、24 帧、1080P 规格内容。

ViduQ1-Image
厂商
图生视频首帧生视频
生成视频: 2500 /

Vidu Q1 是 Vidu 新一代视频生成大模型,聚焦高质量视频创作,固定输出 5 秒、24 帧、1080P 规格内容。

ViduQ1-Start-End
厂商
图生视频首尾帧生视频
生成视频: 2500 /

Vidu Q1 是 Vidu 新一代视频生成大模型,聚焦高质量视频创作,固定输出 5 秒、24 帧、1080P 规格内容。

Vidu2-Image
厂商
图生视频首帧生视频
生成视频: 1250 /

Vidu 2 视频生成大模型,平衡速度与质量,主攻图生视频、首尾帧功能,支持 4 秒时长下 720P 分辨率输出。

Vidu2-Start-End
厂商
图生视频首尾帧生视频
生成视频: 1250 /

Vidu 2 视频生成大模型,平衡速度与质量,主攻图生视频、首尾帧功能,支持 4 秒时长下 720P 分辨率输出。

Vidu2-Reference
厂商
图生视频参考生视频
生成视频: 2500 /

Vidu 2 视频生成大模型,平衡速度与质量,主攻图生视频、首尾帧功能,支持 4 秒时长下 720P 分辨率输出。

happyhorse-1.0-t2v
厂商
文生视频
720P: 900 /
1080P: 1600 /

HappyHorse-1.0-T2V支持文生视频,具备高度还原的动态画面生成能力,能够精准理解文本语义,输出流畅自然、细节丰富的高质量视频。

happyhorse-1.0-i2v
厂商
图生视频首帧生视频
720P: 900 /
1080P: 1600 /

HappyHorse-1.0-I2V支持图生视频,具备高度还原的动态画面生成能力,能够精准理解文本语义,输出流畅自然、细节丰富的高质量视频。

happyhorse-1.0-r2v
厂商
图生视频参考生视频
720P: 900 /
1080P: 1600 /

HappyHorse-1.0-R2V支持参考生视频,更加稳定的主体与场景参考,支持最多9张图片参考,能够精准保持创作意图,实现更强表现能力。

happyhorse-1.0-video-edit
厂商
文生视频
720P: 900 /
1080P: 1600 /

HappyHorse-1.0-Video-Edit支持视频编辑,自然语言指令编辑视频,可参考最多5张图片局部或全局编辑视频元素,能够精准复刻视频动态过程,实现更强表现能力。

doubao-seedance-2.0
厂商
文生视频图生视频首帧生视频首尾帧生视频参考生视频视频编辑
无参考视频,生成480P: 500 /
无参考视频,生成720P: 1000 /
无参考视频,生成1080P: 2500 /
有参考视频,生成480P: 300 /
有参考视频,生成720P: 600 /
有参考视频,生成1080P: 1500 /

支持图像、视频、音频等多模态作为参考输入生成视频,还具备视频编辑、延长等能力,能高精度还原各类细节并稳定角色特征,具备极致拟真的视听稳定性,深度适配商业广告、影视制作与社交媒体营销等各大核心场景。

doubao-seedance-2.0-fast
厂商
文生视频图生视频首帧生视频首尾帧生视频参考生视频视频编辑
无参考视频,生成480P: 370 /
无参考视频,生成720P: 800 /
有参考视频,生成480P: 220 /
有参考视频,生成720P: 480 /

Seedance 2.0 fast是豆包大模型团队推出的新一代多模态视频创作模型,它继承了Seedance 2.0模型的核心功能和优势,生成速度更快。

doubao-seedance-1.5-pro
厂商
文生视频图生视频首帧生视频首尾帧生视频参考生视频视频编辑
生成480P无声视频: 80 /
生成720P无声视频: 180 /
生成1080P无声视频: 390 /
生成480P有声视频: 160 /
生成720P有声视频: 350 /
生成1080P有声视频: 780 /

可生成音画高精同步的视频内容。支持多人多语言对白,全面覆盖环境音、动作音、合成音、乐器音、背景音及人声,支持首尾帧,实现影视级叙事效果,满足影视、漫剧、电商及广告领域的高阶创作需求

kling-v3-omni
厂商
文生视频图生视频首帧生视频首尾帧生视频参考生视频
标准画质、无声、无参考视频: 600 /
标准画质、有声、无参考视频: 800 /
标准画质、无声、有参考视频: 900 /
高品质画质、无声、无参考视频: 800 /
高品质画质、有声、无参考视频: 1000 /
高品质画质、无声、有参考视频: 1200 /
4K画质、无声、无参考视频: 3000 /
4K画质、有声、无参考视频: 3000 /

Kling V3 Omni(可灵视频3.0 Omni)是快手推出的全能型原生多模态视频大模型。它突破了传统视频生成的单一模式,将高清视频生成、音频生成(音画直出)、角色编辑与智能分镜推理深度融合。

glm-tts
厂商
音频处理
文本字数: 0.2 /

GLM-TTS 语音合成模型以新一代智谱语音大模型为核心,突破传统语音合成框架,通过上下文智能预判文本情绪与语调,显著提升语音自然度与表现力,让合成语音具备真实情感与生命力。

glm-asr-2512
厂商
音频处理
语音时长: 0.2 /

GLM-ASR-2512 是智谱新一代语音识别模型,支持将语音实时转换为高质量文字。无论是日常聊天、会议记录、工作文档,还是包含专业术语的场景,都能精准识别与转换,大幅提升输入与记录效率。

qwen3-asr-flash
厂商
音频处理
语音时长计费: 0.22 /

千问3-ASR-Flash是一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。

qwen3-tts-instruct-flash
厂商
音频处理
文本字数计费: 0.08 /

Qwen3-TTS-Flash模型是通义实验室最新推出的实时语音合成大模型,Instruct模型可通过自然语言进行合成效果的处理,确保在不同语境下,合成情感、表达高度贴合的语音。

联系我们联系我们