阿里Z-image实测:轻量级大能量,开源图像生成新势力崛起?

   时间:2025-12-03 22:08 来源:天脉网作者:朱天宇

原本以为今年下半年AI图像生成领域的热闹程度不过如此,没想到阿里通义千问团队近日甩出一张“王炸”——Z-image,瞬间在开源社区掀起波澜,上线即登顶热门榜首位。

Z-image,中文名为“造相”,是阿里巴巴通义实验室研发的一款开源图像生成基础模型。它定位为“轻量且高性能”的AI图像解决方案,参数量仅有6B(60亿),却对标参数量20B以上的闭源旗舰模型。在AI领域,参数量常被视为模型的“脑容量”,参数量越大,模型往往能掌握更多知识,生成图像的细节也越丰富。例如谷歌训练的Nano-Banana Pro,因极高的参数量,文生图效果极为出色,但对硬件要求极高,普通用户难以驾驭。

相比之下,Z-image的硬件门槛低得惊人。官方文档显示,即便是几年前的RTX 3060显卡,或是显存6GB的消费级主流显卡,配合成熟的量化技术,也能流畅运行。这意味着用户无需为了玩AI画图专门配置高性能主机,手边的游戏本甚至高性能轻薄本都能成为创意工坊。对于没有显卡的核显用户,Hugging Face和阿里的魔搭社区(ModelScope)还提供了现成的在线Demo,虽然可能需要排队等待,但完全免费。

如此低的门槛,让Z-image迅速吸引了大量关注。那么,它的实际表现如何呢?为了验证这一点,记者进行了一系列测试,用相同的提示词(Prompt)对比了Z-image与国内外两款常用图片生成大模型——字节的豆包和Nano-Banana Pro。

在测试人类考古学家在金字塔挖掘现场发现旋转金属球的场景时,Nano-Banana Pro成功还原了纪录片拍摄的界面和质感,而Z-image和豆包的表现相差无几,但Z-image的图片一致性偏高,多次尝试在相同参数下得出的结果极为相似,可能是内置参数的影响。

在人像测试中,提示词要求生成一张平平无奇的iPhone照片,展现松弛氛围感的亚洲美女。三款模型生成的图片均真实感强、光影自然,无明显瑕疵。不过,Z-image和豆包更符合国人审美,而Nano-Banana Pro生成的华人形象带有明显的ABC特征。

在海报设计测试中,三款模型应对一般中文嵌入的能力均有所提升,细节和光影表现也难分伯仲。然而,在多格图片教程生成测试中,差距显现。提示词要求生成手账风格的番茄炒蛋制作步骤教程图,步骤说明需为中文。Nano-Banana Pro能够掌握多格图片生成和数字顺序的含义,基本一次出图;而Z-image虽然粗看有些意思,但数字标注完全错误。

在二次元/漫画图片生成测试中,提示词要求生成日本漫画风格,展现初音未来和洛天依撕开海报并穿越到现实中的场景。Nano-Banana Pro不仅知道两位角色,构图也颇具创意;豆包虽不知洛天依,但构图仍有优势;而Z-image则完全不知所云。

尽管在复杂推理和精准编辑上,Z-image尚不及Nano-Banana Pro等闭源模型,且目前缺失图片编辑相关能力,但在90%的日常使用场景中,它已能做到“够用”甚至“好用”。对于想尝试AIGC的中小企业或个人用户而言,Z-image的意义不言而喻。它不仅降低了硬件门槛,还因其开源特性,为未来各种微调模型的出现提供了可能。就像安卓手机一样,虽然初期可能不如苹果流畅,但一旦生态建立,爆发力将不可小觑。

 
 
更多>同类内容
推荐图文
推荐内容
点击排行
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群