FramePack是一项由Lvmin Zhang和斯坦福大学Maneesh Agrawala团队推出的创新AI视频生成技术。它带来最大突破在于极大降低了硬件门槛——仅需市面主流6GB显存的RTX 30/40/50系列NVIDIA GPU,即可于本地生成60秒、30帧每秒的高清视频,无需依赖高价云服务或12GB以上显存卡。其核心原理在于采用固定长度时域上下文,将此前视频扩散模型随帧数增长带来的显存暴涨问题转变为恒定成本,通过压缩并筛选重要帧后再进行推理,大大降低单机硬件压力。
FramePack支持13B参数级别模型,并实测即使在笔记本GPU上也能运行,生成效率接近传统图像扩散模型。在生成过程中,它还能缓解“漂移”现象,即避免长视频质量随着生成过程推进而下降,实现高保真、长时段AI视频输出。用户可以利用其内置GUI上传图片和填写动作提示词,系统逐帧生成视频且能实时预览进度,大幅提升交互体验。
相比传统AI视频扩散模型,FramePack无须牺牲分辨率、降低帧数或显著放慢速度,显著提升了本地生成视频的可操作性和效率。该方案还开源,允许研究者与开发者为自己的预训练模型进行微调,灵活适配不同应用场景。目前仅支持NVIDIA新一代显卡且要求操作系统为Linux或Windows,不过绝大多数台式机和主流笔记本均可满足条件。这项技术使普通内容创作者也可轻松制作高质量短视频、GIF等娱乐内容,为AI视频创作普及创造了新的低门槛解决方案。