玩酷网

VPTQ，让你可以用一块4090 GPU 跑起来Llama 3.1 70b地址：

2024-10-06 22:40:23 蚁工厂科技

VPTQ，让你可以用一块4090 GPU 跑起来Llama 3.1 70b

地址： github.com/microsoft/VPTQ

VPTQ（Vector Post-Training Quantization）是由微软开发的一个灵活且极端低比特量化算法，为大型语言模型提供了高效的量化方法。该算法能够在不重新训练的情况下，将模型压缩到1-2比特，同时保持高精度。量化405B Llama-3.1模型仅需约17小时。

阅读：3 点赞：0