近日,人工智能领域传来一则重磅消息:由智谱与华为携手打造的开源图像生成模型GLM-Image,在发布后不到24小时内便登顶全球知名AI开源社区Hugging Face的榜单首位。这一突破标志着国产AI模型在国际竞争中首次实现端到端自主研发能力的领先,其训练全程完全依托国产芯片完成,为行业树立了新的标杆。
据技术团队介绍,GLM-Image的研发突破了传统技术路径的限制。该模型基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架构建,从数据预处理到模型训练的全流程均在国产硬件环境中完成。作为首个在国产芯片上实现全程训练的SOTA多模态模型,其成功验证了国产AI生态的完整性与成熟度。
在架构设计层面,研发团队摒弃了开源社区常用的LDM方案,创新性地采用自回归与扩散解码器相结合的混合架构。这种设计使模型既能精准理解全局指令,又能细致刻画局部细节,尤其在处理复杂视觉文本生成任务时表现出色。测试数据显示,GLM-Image在CVTG-2K复杂视觉文本生成榜单和LongText-Bench长文本渲染榜单中均取得开源模型第一的成绩。
该模型的核心优势体现在对中文场景的深度优化。通过专项训练,GLM-Image能够准确理解中文指令并生成高质量图像,在汉字生成任务中展现出显著优势。其应用场景覆盖海报设计、PPT制作、科普图生成等知识密集型领域,可有效提升内容创作效率。技术团队透露,某科普平台使用该模型后,图文内容生产周期缩短了70%。
商业化落地方面,GLM-Image通过API调用模式将单张图片生成成本降至0.1元。这一价格优势使其迅速获得市场关注,多家设计平台与教育机构已启动合作测试。行业分析师指出,低成本与高性能的结合将推动AI图像生成技术从专业领域向大众市场普及,可能引发内容创作行业的变革。
技术文档显示,GLM-Image的训练数据集包含超过2亿张中英文图文对,通过动态权重调整机制实现了多语言场景的均衡优化。模型参数规模达30亿,在保持高效推理的同时支持实时编辑功能。目前,其开源代码与预训练权重已在Hugging Face平台开放下载,全球开发者均可参与二次开发。















