玩酷网

VPTQ,让你可以用一块4090 GPU 跑起来Llama 3.1 70b地址:

VPTQ,让你可以用一块4090 GPU 跑起来Llama 3.1 70b

地址: github.com/microsoft/VPTQ

VPTQ(Vector Post-Training Quantization)是由微软开发的一个灵活且极端低比特量化算法,为大型语言模型提供了高效的量化方法。该算法能够在不重新训练的情况下,将模型压缩到1-2比特,同时保持高精度。量化405B Llama-3.1模型仅需约17小时。