GLM-Image
文生图/图生图AI应用
- 应用大小:50 GB
- 适用资源:4090
- 主系统:Ubuntu 24.04
- 应用环境:JupyterLab v1 | FileBrower v1 | LogViewer v1
应用介绍:
认知级“自回归+扩散”混合图像生成大模型
免费启动应用
说明文档
GLM-Image
GLM-Image 是智谱 AI 全自研的下一代视觉生成引擎。它摒弃了单一的扩散模型路径,创新性地融合了强语义理解(9B 自回归模型)与高保真渲染(7B 扩散解码器),在海报制作、知识图谱生成及复杂指令遵循方面达到了工业级领先水平。
核心技术架构
- “双大脑”混合架构:
- 9B 自回归生成器:基于 GLM-4 语言大模型底座,专注于画面的全局构图、空间逻辑与语义布局。它像人类导演一样先行规划图像的“骨架”与内容。
- 7B 扩散解码器 (DiT):基于单流扩散变换器架构,专注于高频细节、光影质感与纹理表现。它像顶尖画师一样将规划好的蓝图转化为超高精细度的图像。
- 原生 Glyph Encoder(字形编码器):针对文字渲染进行了专项强化。在海报、PPT、说明书等场景中,能以极高准确率渲染中英文长文本及复杂排版,彻底告别“乱码”时代。
- 知识密集型生成:得益于强大的语言模型基因,GLM-Image 对科学常识、历史文化、行业术语有着深度的“认知”,能生成极具专业性的科普图与商业示意图。
核心能力
- 文生图 (Text-to-Image):支持超长且细致的提示词,对多主体、复杂动作及精细光影有极强的控制力。
- 图像精准编辑 (Image Editing):支持一键替换主体、背景微调及无缝局部重绘,保持画面整体逻辑不崩坏。
- 身份与风格保持 (ID & Style Consistency):在多图连贯创作中,能稳健维持人物角色(Identity)和艺术风格的一致性。
- 多分辨率自适应:原生支持多种比例(1:1, 3:4, 4:3, 16:9 等)和高达 2048px 的高清输出。
适用群体
- 设计与广告从业者:快速生成带精准文案的商业海报、产品渲染图及营销素材。
- 教育与科普创作者:制作准确的教学插图、科学实验图解及带标注的示意图。
- 自媒体与博主:利用其强大的审美与一致性能力,快速构建具有个人风格的系列视觉内容。
- 企业应用开发者:通过 API 接入,为办公系统提供自动生成 PPT 插图、报告图表等能力。
性能表现 (Benchmarks)
- 文字生成:在 CVTG-2K(复杂视觉文字生成)榜单中位列开源模型前列,文字准确率(Word Accuracy)超过 91%。
- 部署建议:推理建议显存 16GB 以上(RTX 3090/4080/4090),支持 BF16/FP16 精度。

