腾讯混元近期宣布了一项重大技术进展,开源了一款名为InstantCharacter的定制化图像生成插件,并与开源文生图模型Flux实现了完美兼容。这一创新工具为内容创作者带来了前所未有的便利与创意空间。
据腾讯官方介绍,InstantCharacter插件的功能强大且直观。用户只需提供一张图片和一句简短的描述,就能让任意角色以期望的姿势出现在任何场景中。例如,输入一张原始图片,并附上“一只兔子在厨房里拿着勺子喝汤”的提示,系统就能迅速生成一张兔子在厨房中享受美食的生动图像。
更令人惊叹的是,InstantCharacter插件还能处理更加复杂和富有创意的提示。例如,输入“一只兔子在城市中,赛博朋克风格”,系统就能生成一张充满未来感的兔子形象,完美融入赛博朋克的城市背景中。
在多轮文生图场景中,角色的一致性一直是一个难题。而InstantCharacter插件凭借其先进的技术,确保了角色在不同场景中的一致性和真实性。同时,生成的图像画质和精度高,文本编辑性强,用户可以根据需要灵活切换场景和动作,极大地提升了创作效率和自由度。
腾讯混元团队表示,InstantCharacter插件在角色一致性和图像生成精确度上超越了业界此前的相关技术,能够处理多种风格和复杂度的图像。这一创新工具将广泛应用于连环画、影片创作等领域,为内容创作者提供更加高效和便捷的视觉作品创作方式。
从技术层面来看,InstantCharacter插件采用了创新的DiT模型框架,并引入了一个可扩展的适配器。这一设计使得系统能够灵活适应不同的角色特征,并与现代扩散变换器的潜在空间无缝交互。为了有效训练这一框架,腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集,进一步提升了系统的性能和准确性。