星桥API - 大模型接口服务 - 星宇智算

模型名称	特性	价格（星元）	简介
glm-5.1	流式输出深度思考工具调用结构化输出	输入价格: 6000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 1300.00 / M tokens 输出价格: 24000.00 / M tokens	GLM-5.1 是智谱最新旗舰模型，代码能力大大增强，长程任务显著提升，能够在单次任务中持续、自主地工作长达 8 小时，完成从规划、执行到迭代优化的完整闭环，交付工程级成果。
glm-5	流式输出深度思考工具调用结构化输出	输入价格: 4000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 1000.00 / M tokens 输出价格: 18000.00 / M tokens	GLM-5 是智谱的基座模型，面向 Agentic Engineering 打造，能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。
glm-5-turbo	流式输出深度思考工具调用结构化输出	输入价格: 5000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 1200.00 / M tokens 输出价格: 22000.00 / M tokens	GLM-5-Turbo 是面向 OpenClaw 龙虾场景深度优化的基座模型。其从训练阶段就针对龙虾任务的核心需求进行专项优化，增强如工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力，使其
glm-5v-turbo	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 5000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 1200.00 / M tokens 输出价格: 22000.00 / M tokens	GLM-5V-Turbo 是智谱首个多模态 Coding 基座模型，面向视觉编程任务打造。能够原生处理图片、视频、文本等多模态输入，同时擅长长程规划、复杂编程和动作执行。
glm-4.6v	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 1000.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 200.00 / M tokens 输出价格: 3000.00 / M tokens	GLM-4.6V 系列是 GLM 系列在多模态方向上的一次重要迭代，它将训练时上下文窗口提升到128k tokens，在视觉理解精度上达到同参数规模 SOTA。
glm-4.6v-flashx	流式输出图像理解视频理解深度思考工具调用结构化输出	输入价格: 150.00 / M tokens 创建缓存价格: 0.00 / M tokens 命中缓存价格: 30.00 / M tokens 输出价格: 1500.00 / M tokens	GLM-4.6V 系列是 GLM 系列在多模态方向上的一次重要迭代，它将训练时上下文窗口提升到128k tokens，在视觉理解精度上达到同参数规模 SOTA。
glm-embedding-3	文本向量	输入价格: 500.00 / M tokens	Embedding-3 是智谱AI 推出的第三代文本向量化模型，在前代基础上全面升级，提供更强的语义理解能力和更灵活的向量维度选择。
glm-embedding-2	文本向量	输入价格: 500.00 / M tokens	Embedding-2 是智谱AI 推出的第二代文本向量化模型，能够将文本转换为高维向量表示，用于语义相似性计算和搜索。
glm-rerank	文本排序	输入价格: 800.00 / M tokens	Rerank 是智谱AI 推出的重排序模型，能够计算文本之间的 score 值，对召回结果进行重排序。
glm-image	文生图	生成图片: 100 / 张	GLM-Image 是智谱新旗舰图像生成模型，兼顾全局指令理解与局部细节刻画，克服了海报、PPT、科普图等知识密集型场景生成难题。
cogview-4	文生图	生成图片: 60 / 张	CogView-4 是智谱首个支持生成汉字的开源文生图模型，在语义理解、图像生成质量、中英文字生成能力等方面全面提升。
cogview-3-flash	文生图	生成图片: 20 / 张	CogView-3-Flash 是智谱推出的图像生成模型，能够根据用户指令生成符合要求且美学评分更高的图像。
CogVideoX-3	文生视频图生视频首帧生视频首尾帧生视频	生成视频: 1000 / 个	CogVideoX-3 新增首尾帧生成功能，画面稳定度、清晰度大幅提升，主体大幅度运动流畅自然，指令遵循与物理真实模拟更佳，还提升了高清现实及 3D 风格场景表现。
CogVideoX-2	文生视频图生视频首帧生视频	生成视频: 500 / 个	CogVideoX-2 是智谱新一代视频生成大模型，图生视频能力大幅提升38%，在大幅度运动、画面稳定性、指令遵从、艺术风格与画面美感方面实现了显著优化。
CogVideoX-Flash	文生视频图生视频首帧生视频	生成视频: 100 / 个	CogVideoX-Flash 是智谱推出的视频生成模型，能够根据用户指令生成符合要求且美学评分更高的视频。
ViduQ1-Text	文生视频	生成视频: 2500 / 个	Vidu Q1 是 Vidu 新一代视频生成大模型，聚焦高质量视频创作，固定输出 5 秒、24 帧、1080P 规格内容。
ViduQ1-Image	图生视频首帧生视频	生成视频: 2500 / 个	Vidu Q1 是 Vidu 新一代视频生成大模型，聚焦高质量视频创作，固定输出 5 秒、24 帧、1080P 规格内容。
ViduQ1-Start-End	图生视频首尾帧生视频	生成视频: 2500 / 个	Vidu Q1 是 Vidu 新一代视频生成大模型，聚焦高质量视频创作，固定输出 5 秒、24 帧、1080P 规格内容。
Vidu2-Image	图生视频首帧生视频	生成视频: 1250 / 个	Vidu 2 视频生成大模型，平衡速度与质量，主攻图生视频、首尾帧功能，支持 4 秒时长下 720P 分辨率输出。
Vidu2-Start-End	图生视频首尾帧生视频	生成视频: 1250 / 个	Vidu 2 视频生成大模型，平衡速度与质量，主攻图生视频、首尾帧功能，支持 4 秒时长下 720P 分辨率输出。
Vidu2-Reference	图生视频参考生视频	生成视频: 2500 / 个	Vidu 2 视频生成大模型，平衡速度与质量，主攻图生视频、首尾帧功能，支持 4 秒时长下 720P 分辨率输出。
glm-tts	音频处理	文本字数: 0.2 / 字	GLM-TTS 语音合成模型以新一代智谱语音大模型为核心，突破传统语音合成框架，通过上下文智能预判文本情绪与语调，显著提升语音自然度与表现力，让合成语音具备真实情感与生命力。
glm-asr-2512	音频处理	语音时长: 0.2 / 秒	GLM-ASR-2512 是智谱新一代语音识别模型，支持将语音实时转换为高质量文字。无论是日常聊天、会议记录、工作文档，还是包含专业术语的场景，都能精准识别与转换，大幅提升输入与记录效率。