玩酷网

这个项目:AirLLM 可以让你的 70B 大型语言模型在单个 4GB GPU

这个项目:AirLLM 可以让你的 70B 大型语言模型在单个 4GB GPU 卡上运行推理,或者让405B Llama3.1 在8G的GPU卡上运行。

github.com/lyogavin/airllm

大概的原理是基于Transformer的LLM的推理过程中,层是顺序执行的。前一层的输出是下一层的输入。一次只执行一层。因此,完全没有必要将所有层都保存在GPU内存中。我们可以根据需要从磁盘加载要执行的层,进行所有计算,然后完全释放内存。这样,每层所需的GPU内存仅为一个Transformer层的参数大小,即整个模型的1/80,大约1.6GB。(这段介绍来自Rohan Paul)

当然代价就是速度非常慢。。