GLM-Image

GLM-Image

文生图/图生图

AI应用

应用大小：50 GB
适用资源：4090 24G
主系统：Ubuntu 24.04
应用环境：JupyterLab v1 | FileBrower v1 | LogViewer v1 | Docker v570.86.10 | CUDA v12.8 | Conda v25.11.1 | Docker v29.1.3 | Python v3.13.11

应用介绍：

认知级“自回归+扩散”混合图像生成大模型

免费启动应用

说明文档

GLM-Image

GLM-Image 是智谱 AI 全自研的下一代视觉生成引擎。它摒弃了单一的扩散模型路径，创新性地融合了强语义理解（9B 自回归模型）与高保真渲染（7B 扩散解码器），在海报制作、知识图谱生成及复杂指令遵循方面达到了工业级领先水平。

核心技术架构

“双大脑”混合架构：
- 9B 自回归生成器：基于 GLM-4 语言大模型底座，专注于画面的全局构图、空间逻辑与语义布局。它像人类导演一样先行规划图像的“骨架”与内容。
- 7B 扩散解码器 (DiT)：基于单流扩散变换器架构，专注于高频细节、光影质感与纹理表现。它像顶尖画师一样将规划好的蓝图转化为超高精细度的图像。
原生 Glyph Encoder（字形编码器）：针对文字渲染进行了专项强化。在海报、PPT、说明书等场景中，能以极高准确率渲染中英文长文本及复杂排版，彻底告别“乱码”时代。
知识密集型生成：得益于强大的语言模型基因，GLM-Image 对科学常识、历史文化、行业术语有着深度的“认知”，能生成极具专业性的科普图与商业示意图。

核心能力

文生图 (Text-to-Image)：支持超长且细致的提示词，对多主体、复杂动作及精细光影有极强的控制力。
图像精准编辑 (Image Editing)：支持一键替换主体、背景微调及无缝局部重绘，保持画面整体逻辑不崩坏。
身份与风格保持 (ID & Style Consistency)：在多图连贯创作中，能稳健维持人物角色（Identity）和艺术风格的一致性。
多分辨率自适应：原生支持多种比例（1:1, 3:4, 4:3, 16:9 等）和高达 2048px 的高清输出。

适用群体

设计与广告从业者：快速生成带精准文案的商业海报、产品渲染图及营销素材。
教育与科普创作者：制作准确的教学插图、科学实验图解及带标注的示意图。
自媒体与博主：利用其强大的审美与一致性能力，快速构建具有个人风格的系列视觉内容。
企业应用开发者：通过 API 接入，为办公系统提供自动生成 PPT 插图、报告图表等能力。

性能表现 (Benchmarks)

文字生成：在 CVTG-2K（复杂视觉文字生成）榜单中位列开源模型前列，文字准确率（Word Accuracy）超过 91%。
部署建议：推理建议显存 16GB 以上（RTX 3090/4080/4090），支持 BF16/FP16 精度。

联系我们

GLM-Image - AI应用中心 - 星宇智算 - StarverseAI