近日,由Picsart AI Research团队联合发布的StreamingT2V模型可生成长达2分钟(1200帧)的高质量视频,超越了之前的Sora模型。这一开源模型不仅可以生成更长时长的视频,还能与SVD、animatediff等其他模型无缝兼容,为开源视频生成领域带来新的突破。
亮点总结:
生成时长达2分钟(1200帧),超越以往模型视频质量优秀与业内其他主流模型实现无缝衔接开源免费,便于开发者使用和二次开发自己本地搭建教程:

1.安装并安装 Python 3.10 and CUDA >= 11.6 环境 【Python 3.10 】、【Cuda 下载】
2.克隆开源项目至本地:
git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/
3.安装必备的环境:
conda create -n st2v python=3.10
conda activate st2v
pip install -r requirements.txt
4.(可选)如果您的系统上缺少 FFmpeg,请安装 FFmpeg
conda install conda-forge::ffmpeg
5. 从HF 下载模型权重并将它放在 t2v_enhanced/checkpoints目录下
6.文本转视频
cd t2v_enhanced
python inference.py --prompt="A cat running on the street"
如要使用其他基本模型,请添加--base_model=AnimateDiff参数。用于python inference.py --help更多选项
7.图片转视频
cd t2v_enhanced
python inference.py --image=../__assets__/demo/fish.jpg --base_model=SV
推理时间ModelscopeT2V作为基础模型帧数
更快预览的推理时间 (256×256)
最终结果的推理时间 (720×720)
24帧
40秒
165秒
56帧
75秒
360秒
80帧
110秒
525秒
240帧
340秒
1610 秒(约 27 分钟)
600帧
860秒
5128 秒(约 85 分钟)
1200帧
1710 秒(约 28 分钟)
10225 秒(约 170 分钟)
AnimateDiff作为基础模型帧数
更快预览的推理时间 (256×256)
最终结果的推理时间 (720×720)
24帧
50秒
180秒
56帧
85秒
370秒
80帧
120秒
535秒
240帧
350秒
1620 秒(约 27 分钟)
600帧
870秒
5138 秒(~85 分钟)
1200帧
1720 秒(约 28 分钟)
10235 秒(约 170 分钟)
SVD作为基本模型帧数
更快预览的推理时间 (256×256)
最终结果的推理时间 (720×720)
24帧
80秒
210秒
56帧
115秒
400秒
80帧
150秒
565秒
240帧
380秒
1650 秒(约 27 分钟)
600帧
900秒
5168 秒(~86 分钟)
1200帧
1750 秒(约 29 分钟)
10265 秒(~171 分钟)
所有测量均使用 NVIDIA A100 (80 GB) GPU 进行。当帧数超过 80 时,采用随机混合。对于随机混合,chunk_size和 的值overlap_size分别设置为 112 和 32。