大模型预训练,要控制时间还是要控制成本?这篇论文 “$ 100K or 100 Days: Trade-offs when Pre-Training with Academic Resources” 提出了一个基准测试(训练1B参数的模型)来衡量在特定GPU上预训练模型的时间/成本分析。帮助不那么富裕的学术研究人员在价格和预训练时间之间做出权衡。
arxiv.org/abs/2410.23261
大模型预训练,要控制时间还是要控制成本?这篇论文 “$ 100K or 100 Days: Trade-offs when Pre-Training with Academic Resources” 提出了一个基准测试(训练1B参数的模型)来衡量在特定GPU上预训练模型的时间/成本分析。帮助不那么富裕的学术研究人员在价格和预训练时间之间做出权衡。
arxiv.org/abs/2410.23261