全球首个多模态视频与图像创作工具“可灵O1”近日正式发布,标志着视频创作领域迎来重大突破。该工具以自然语言为核心指令框架,整合视频、图像、主体等多维度描述,将生成与编辑功能集成于统一平台,为用户提供从创意构思到成品输出的全流程解决方案。
作为首款大一统多模态模型,可灵O1基于多模态视觉语言(MVL)架构,突破传统单一任务模型的局限。其核心引擎支持参考生视频、文生视频、首尾帧生成、视频内容增删、风格转换等十余种功能,用户无需切换工具即可完成复杂创作流程。模型具备深度语义解析能力,可综合理解照片、视频或主体特征,精准还原细节信息。例如,用户输入“移除画面中的行人”或“将场景从白天改为黄昏”,系统会自动完成像素级重构,无需手动标注关键帧。
针对AI视频创作中角色与场景一致性难题,可灵O1通过强化底层理解机制实现突破。模型能像专业导演般“记忆”主角、道具及场景特征,确保镜头切换时主体保持稳定。在多主体融合场景中,系统可独立锁定每个角色特征,即使面对复杂群像戏或互动画面,仍能维持工业级精度。例如,用户可将不同主体与参考图自由组合,模型自动协调各元素关系,生成自然流畅的视觉效果。
该工具的创新性体现在“技能组合”功能上。用户可同时下达多重指令,如“在添加新主体的同时修改背景”或“基于参考图生成时调整画面风格”,实现创意的叠加呈现。时间维度方面,创作者可自由定义3-10秒的叙事时长,无论是短促的视觉冲击还是长镜头叙事,均能精准控制。即将上线的首尾帧功能将进一步扩展时间轴选择范围,增强故事张力。
同步推出的可灵图像O1模型构建了完整的图像创作链路。用户既可通过文本描述生成基础图像,也能上传最多10张参考图进行融合创作。该模型具备四大优势:特征稳定性确保主体元素不偏移;细节响应机制使修改符合预期;风格调性控制维持画面统一性;超强想象力赋予创意更多可能性。例如,在服装设计场景中,用户上传实拍图后,模型可精准还原面料质感,批量生成不同角度的展示视频。
实际应用场景中,可灵O1展现出强大适应性。影视制作团队可利用其主体库功能锁定角色特征,快速生成连贯分镜;自媒体创作者通过对话式指令即可完成视频后期处理,如智能修补画面瑕疵或调整色彩基调。广告电商领域,该工具大幅降低实拍成本——用户上传商品图、模特图及场景图后,系统能自动生成多版本广告视频,解决模特约拍、背景更换等难题。某服装品牌测试显示,使用可灵O1制作的虚拟走秀视频,其细节还原度达到专业拍摄水平的92%。
技术层面,可灵O1的突破源于底层架构创新。全新视频模型通过多模态Transformer与长上下文理解机制,实现了生成、编辑、理解三大功能的深度融合。这种统一底座设计不仅提升了运算效率,更开创了视频创作工具的新范式。据开发团队透露,后续版本将增加4K分辨率支持及3D场景生成功能,进一步拓展创作边界。















