美研究团队发布新AI模型无损压缩方案DFloat11,让大模型压缩率高达70%,还能100%保持原性能。相比原模型,推理速度提升1.9倍以上,解压效率更是超nvCOMP 15倍。DFloat11兼容GPU推理,内存占用大降,还能让上下文长度提升5-13倍,支持超大规模模型无损部署。该方法适配多款主流模型,且源码已开源,有望解决GPU资源紧张难题。
美研究团队发布新AI模型无损压缩方案DFloat11,让大模型压缩率高达70%,还能100%保持原性能。相比原模型,推理速度提升1.9倍以上,解压效率更是超nvCOMP 15倍。DFloat11兼容GPU推理,内存占用大降,还能让上下文长度提升5-13倍,支持超大规模模型无损部署。该方法适配多款主流模型,且源码已开源,有望解决GPU资源紧张难题。