潞晨Open-Sora团队近日宣布,其在720p高清视频生成领域中,实现了16秒单镜头高清视频的一键生成,同时保持了模型的全面开源。
潞晨科技
,赞2122

Open-Sora模型在生成高质量视频方面展现了惊人的能力,不论是自然风光如海浪与海螺的碰撞。
还是深邃森林的神秘氛围。
或是人物肖像大片感。
或是赛博朋克风格的未来感影像,均能精准呈现。
此外,它还能够生成生动的动画镜头,达到专业级的电影镜头制作水平,包括流畅的变焦效果和逼真的电影镜头。
Open-Sora的技术核心在于视频压缩网络(Video Compression Network)的创新运用。
通过在空间和时间维度上的高效压缩——空间上8x8倍,时间上4倍,成功平衡了视频流畅度和训练成本,优化了成本与质量的双重标准。
与此同时,Open-Sora团队基于最新的Stable Diffusion 3模型,采用rectified flow技术替代DDPM,极大提升了图像和视频的生成质量。
为了降低模型训练的成本和提高效率,Open-Sora团队提供了包括整流训练、Logit-norm时间步长采样在内的多项技术,使得训练过程得以加速,推理时间显著缩短,同时支持不同视频宽高比的输出,满足了视频创作者的多样化需求。
除了技术层面的突破,Open-Sora团队还致力于模型训练细节的透明化,分享了数据清洗、模型调优的实用技巧,构建了更为完善的模型评估体系,确保模型的稳健性和泛化能力。
此外,Gradio应用的提供,使得用户可以一键部署模型,并自由调节运动分数、美学分数和镜头移动方式等参数,极大地丰富了创作工具箱。
Open-Sora的开源策略,不仅仅是模型权重的分享,更是技术路线的公开和深入的技术报告撰写,鼓励每一个参与者都能成为视频生成技术的探索者和创新者。
这种“授人以渔”的理念,为企业用户打开了自主开发文生视频应用的大门,无论是游戏开发、广告创意还是影视制作,应用场景都得到了极大的拓展。
LambdaLabs,作为美国科技界的领军企业,基于Open-Sora模型创建了数字乐高宇宙,为乐高爱好者提供了前所未有的创意平台。
潞晨Open-Sora团队通过其创新的视频生成技术和全面的开源策略,正引领着视频生成领域的革新。
关注我们:私信即可加入【AI交流群】,免费领取【AI大礼包】