免费开源的超长AI视频模型：一句话轻松制作120秒精彩视频(模型推理开源时间视频)

文章目录 [+]

近日，由Picsart AI Research团队联合发布的StreamingT2V模型可生成长达2分钟(1200帧)的高质量视频,超越了之前的Sora模型。
这一开源模型不仅可以生成更长时长的视频,还能与SVD、animatediff等其他模型无缝兼容,为开源视频生成领域带来新的突破。

亮点总结:

生成时长达2分钟(1200帧),超越以往模型视频质量优秀与业内其他主流模型实现无缝衔接开源免费,便于开发者使用和二次开发

自己本地搭建教程：

免费开源的超长AI视频模型：一句话轻松制作120秒精彩视频(模型推理开源时间视频) 软件开发

（图片来自网络侵删）

1.安装并安装 Python 3.10 and CUDA >= 11.6 环境【Python 3.10 】、【Cuda 下载】

2.克隆开源项目至本地：

git clone https://github.com/Picsart-AI-Research/StreamingT2V.git

cd StreamingT2V/

3.安装必备的环境：

conda create -n st2v python=3.10

conda activate st2v

pip install -r requirements.txt

4.（可选）如果您的系统上缺少 FFmpeg，请安装 FFmpeg

conda install conda-forge::ffmpeg

5. 从HF 下载模型权重并将它放在 t2v_enhanced/checkpoints目录下

6.文本转视频

cd t2v_enhanced

python inference.py --prompt="A cat running on the street"

如要使用其他基本模型，请添加--base_model=AnimateDiff参数。
用于python inference.py --help更多选项

7.图片转视频

cd t2v_enhanced

python inference.py --image=../__assets__/demo/fish.jpg --base_model=SV

推理时间ModelscopeT2V作为基础模型

帧数

更快预览的推理时间 (256×256)

最终结果的推理时间 (720×720)

24帧

40秒

165秒

56帧

75秒

360秒

80帧

110秒

525秒

240帧

340秒

1610 秒（约 27 分钟）

600帧

860秒

5128 秒（约 85 分钟）

1200帧

1710 秒（约 28 分钟）

10225 秒（约 170 分钟）

AnimateDiff作为基础模型

帧数

更快预览的推理时间 (256×256)

最终结果的推理时间 (720×720)

24帧

50秒

180秒

56帧

85秒

370秒

80帧

120秒

535秒

240帧

350秒

1620 秒（约 27 分钟）

600帧

870秒

5138 秒（~85 分钟）

1200帧

1720 秒（约 28 分钟）

10235 秒（约 170 分钟）

SVD作为基本模型

帧数

更快预览的推理时间 (256×256)

最终结果的推理时间 (720×720)

24帧

80秒

210秒

56帧

115秒

400秒

80帧

150秒

565秒

240帧

380秒

1650 秒（约 27 分钟）

600帧

900秒

5168 秒（~86 分钟）

1200帧

1750 秒（约 29 分钟）

10265 秒（~171 分钟）

所有测量均使用 NVIDIA A100 (80 GB) GPU 进行。
当帧数超过 80 时，采用随机混合。
对于随机混合，chunk_size和的值overlap_size分别设置为 112 和 32。

标签：分钟模型

免费开源的超长AI视频模型：一句话轻松制作120秒精彩视频(模型推理开源时间视频)

相关文章

语言中的借用,文化交融的桥梁

机顶盒协议,守护数字生活的新卫士

语言基础在现代社会的重要性及方法步骤

粤语电影,传承文化，点亮时代之光

详细介绍表具通讯协议,技术革新与未来展望

苹果游戏语言,塑造未来娱乐体验的基石

热门文章

标签列表