| 模型名称 | 厂商 | 特性 | 价格(星元) | 简介 |
|---|---|---|---|---|
| qwen3.7-max | ![]() | 流式输出深度思考工具调用结构化输出 | 输入价格: 6000.00 / M tokens 创建缓存价格: 7500.00 / M tokens 命中缓存价格: 1200.00 / M tokens 输出价格: 1800.00 / M tokens | Qwen3.7系列中规模最大、综合能力最强的Max模型,当前开放纯文本模型能力供体验。Qwen3.7是面向智能体时代的新一代旗舰模型,核心优势在于智能体能力的广度与深度:在编程、办公与生产力、长周期自 |
| qwen3.7-plus | ![]() | 流式输出图像理解视频理解深度思考工具调用结构化输出 | 输入价格: 1600.00 / M tokens 创建缓存价格: 2000.00 / M tokens 命中缓存价格: 320.00 / M tokens 输出价格: 6400.00 / M tokens | Qwen3.7系列中高性价比Plus模型,在强大文本能力的基础上全面升级了视觉-语言能力,同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。其核心特色为多模态交互混合智能体能力,能够感知真 |
| qwen3.6-plus | ![]() | 流式输出图像理解视频理解深度思考工具调用结构化输出 | 输入价格: 2000.00 / M tokens 创建缓存价格: 2500.00 / M tokens 命中缓存价格: 200.00 / M tokens 输出价格: 12000.00 / M tokens | Qwen3.6原生视觉语言系列Plus模型,展现出与当前顶尖前沿模型相媲美的卓越性能,模型效果相较3.5系列显著提升。 |
| qwen3.6-flash | ![]() | 流式输出图像理解视频理解深度思考工具调用结构化输出 | 输入价格: 1200.00 / M tokens 创建缓存价格: 1500.00 / M tokens 命中缓存价格: 120.00 / M tokens 输出价格: 7200.00 / M tokens | Qwen3.6原生视觉语言系列Flash模型,模型效果相较3.5-Flash显著提升。本模型重点提升agentic coding能力(在多项代码智能体基准上大幅超越前代)、数学推理和代码推理能力;视觉 |
| qwen3.5-plus | ![]() | 流式输出图像理解视频理解深度思考工具调用结构化输出 | 输入价格: 800.00 / M tokens 创建缓存价格: 1000.00 / M tokens 命中缓存价格: 80.00 / M tokens 输出价格: 4800.00 / M tokens | Qwen3.5原生视觉语言系列Plus模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。 |
| qwen3.5-flash | ![]() | 流式输出图像理解视频理解深度思考工具调用结构化输出 | 输入价格: 200.00 / M tokens 创建缓存价格: 250.00 / M tokens 命中缓存价格: 20.00 / M tokens 输出价格: 2000.00 / M tokens | Qwen3.5原生视觉语言系列Flash模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。 |
| aliyun-text-embedding-v4 | ![]() | 文本向量 | 输入价格: 500.00 / M tokens | 通义实验室基于Qwen3训练的多语言文本统一向量模型,相较V3版本在文本检索、聚类、分类性能大幅提升;在MTEB多语言、中英、Code检索等评测任务上效果提升15%~40%; |
| aliyun-text-embedding-v3 | ![]() | 文本向量 | 输入价格: 500.00 / M tokens | 通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。 |
| aliyun-qwen3-vl-embedding | ![]() | 多模态向量 | 输入价格: 700.00 / M tokens | 基于Qwen3-VL底座训练的统一多模态向量模型,支持文本、图片、视频单模态/混合模态输入,输出统一表征向量,适用于跨模态检索、图搜、视频检索、图像聚类、复杂多模态信息检索、打标等场景 |
| aliyun-tongyi-embedding-vision-plus | ![]() | 多模态向量 | 输入价格: 500.00 / M tokens | Tongyi-Embedding-Vision是基于LLM底座的视觉多模态表征模型,支持文本、图像、视频3种模态,具有以视觉为中心、全场景性能优异、高性价比的特点。 |
| aliyun-tongyi-embedding-vision-flash | ![]() | 多模态向量 | 输入价格: 150.00 / M tokens | Tongyi-Embedding-Vision是基于LLM底座的视觉多模态表征模型,支持文本、图像、视频3种模态,具有以视觉为中心、全场景性能优异、高性价比的特点。 |
| aliyun-qwen3-rerank | ![]() | 文本排序 | 输入价格: 500.00 / M tokens | 基于Qwen LLM底座训练的文本排序模型,对输入的Query和候选Docs进行相关性排序,支持100+语种和长文本输入,适用于文本检索、RAG等场景,效果对齐开源Qwen3-Rerank系列模型。 |
| aliyun-qwen3-vl-rerank | ![]() | 多模态排序 | 输入价格: 700.00 / M tokens | Qwen3-VL-Rerank重排模型,它能够深入理解文本、图片、视频的丰富多模态信息。 |
| qwen-image-2.0 | ![]() | 文生图图生图图像编辑多参考图 | 生成图片: 200 / 张 | Qwen-Image-2.0系列加速版模型,实现了图片生成和图片编辑的融合;具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感,细腻刻画写实场景、更强的语义遵循能力。 |
| qwen-image-2.0-pro | ![]() | 文生图图生图图像编辑多参考图 | 生成图片: 500 / 张 | Qwen-Image-2.0系列满血版模型,实现了图片生成和图片编辑的融合;具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感,细腻刻画写实场景、更强的语义遵循能力。 |
| qwen-image-max | ![]() | 文生图 | 生成图片: 500 / 张 | 千问图像生成模型Max系列,在各类生成任务中表现出色,相较Plus系列大幅度降低生成图片的AI感,提升图像真实性;具备更真实的人物质感、更细腻的自然纹理、更美观的文字渲染。 |
| qwen-image-plus | ![]() | 文生图 | 生成图片: 200 / 张 | 千问图像生成模型Plus系列,擅长多样化艺术风格与文字渲染。 |
| qwen-image-edit-max | ![]() | 图生图图像编辑多参考图 | 生成图片: 500 / 张 | 千问图像编辑模型Max系列,提供更稳定、更丰富的编辑能力:提升工业设计与几何推理能力;提升角色一致性;减轻偏移问题。 |
| qwen-image-edit-plus | ![]() | 图生图图像编辑多参考图 | 生成图片: 200 / 张 | 千问系列图像编辑Plus模型,在首版Edit模型基础上进一步优化了推理性能与系统稳定性,大幅缩短图像生成与编辑的响应时间。 |
| z-image-turbo | ![]() | 文生图 | 生成图片: 100 / 张 | Z-Image-Turbo是在Artificial Analysis评测中荣登文生图开源模型世界第一的高效图像生成模型,仅用60亿参数和8步推理就能生成媲美大规模商业模型的照片级真实感图像。 |
| wan2.6-t2i | ![]() | 文生图 | 生成图片: 200 / 张 | 万相2.6-文生图,画面质感、美学表现、指令遵循升级,在艺术风格精准控制、真实感人像、长文本生图及广泛历史文化IP覆盖上均表现出卓越能力,可生成高质量且富有表现力的视觉内容。 |
| wan2.5-t2i-preview | ![]() | 文生图 | 生成图片: 200 / 张 | 万相2.5-文生图-Preview,全新升级模型架构。画面美学、设计感、真实质感显著提升,精准指令遵循,擅长中英文和小语种文字生成,支持复杂结构化长文本和图表、架构图等内容生成。 |
| wan2.2-t2i-plus | ![]() | 文生图 | 生成图片: 200 / 张 | 全新升级的万相2.2文生图,更丰富的画面细节。在生成图像创意性、稳定性、写实质感方面全面升级,指令遵循更强,原生支持多种风格。支持最大200万像素生成,支持智能提示词改写等。 |
| wan2.2-t2i-flash | ![]() | 文生图 | 生成图片: 140 / 张 | 全新升级的万相2.2文生图,更快的生成速度。在生成图像创意性、稳定性、写实质感方面全面升级,指令遵循更强,原生支持多种风格。支持最大200万像素生成,支持智能提示词改写等。 |
| wan2.7-image | ![]() | 文生图图生图图像编辑多参考图 | 生成图片: 200 / 张 | 万相2.7-图像生成与编辑,支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑,在文字渲染、主体一致性、复杂指令遵循上都有更强表现 |
| wan2.7-image-pro | ![]() | 文生图图生图图像编辑多参考图 | 生成图片: 500 / 张 | 万相2.7-图像生成与编辑旗舰版模型,支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑,在文字渲染、主体一致性、复杂指令遵循上都有更强表现。 |
| wan2.6-image | ![]() | 图生图图像编辑多参考图 | 生成图片: 200 / 张 | 万相2.6-图像生成,全能图像生成模型,支持图文一体化推理生成,具备多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制,全面提升图像生成的一致性、可控性和表现力。 |
| happyhorse-1.0-t2v | ![]() | 文生视频 | 720P: 900 / 秒 1080P: 1600 / 秒 | HappyHorse-1.0-T2V支持文生视频,具备高度还原的动态画面生成能力,能够精准理解文本语义,输出流畅自然、细节丰富的高质量视频。 |
| happyhorse-1.0-i2v | ![]() | 图生视频首帧生视频 | 720P: 900 / 秒 1080P: 1600 / 秒 | HappyHorse-1.0-I2V支持图生视频,具备高度还原的动态画面生成能力,能够精准理解文本语义,输出流畅自然、细节丰富的高质量视频。 |
| happyhorse-1.0-r2v | ![]() | 图生视频参考生视频 | 720P: 900 / 秒 1080P: 1600 / 秒 | HappyHorse-1.0-R2V支持参考生视频,更加稳定的主体与场景参考,支持最多9张图片参考,能够精准保持创作意图,实现更强表现能力。 |
| happyhorse-1.0-video-edit | ![]() | 文生视频 | 720P: 900 / 秒 1080P: 1600 / 秒 | HappyHorse-1.0-Video-Edit支持视频编辑,自然语言指令编辑视频,可参考最多5张图片局部或全局编辑视频元素,能够精准复刻视频动态过程,实现更强表现能力。 |
| qwen3-asr-flash | ![]() | 音频处理 | 语音时长计费: 0.22 / 秒 | 千问3-ASR-Flash是一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。 |
| qwen3-tts-instruct-flash | ![]() | 音频处理 | 文本字数计费: 0.08 / 字 | Qwen3-TTS-Flash模型是通义实验室最新推出的实时语音合成大模型,Instruct模型可通过自然语言进行合成效果的处理,确保在不同语境下,合成情感、表达高度贴合的语音。 |



