LeptonAI给他们的Llama3.1 405b 的API定价是 $2.8 / 百万tokens
贾扬清解释了即使这样定价仍然是有利可图的。先介绍了大致情况。然后针对疑问又进一步做了“关于Llama3 tokens 经济学的报告。”
大致情况介绍的翻译:
“人们经常问,为什么 LeptonAI 的 Llama 405B 虽然速度很快,但 $2.8/百万 tokens 的价格依然有利可图。这里有一些技术分析,这些信息可能对社区有益。
大批量处理:每个请求大约每秒输出30个tokens。批量处理显著提高了总吞吐量,通常比单个请求高出10倍或更多。GPU在处理较大批量时更高效。
动态批量处理:新请求会立即加入现有批次,而不是等待,从而确保GPU始终高效工作。
输入tokens处理:每秒30个tokens是指输出tokens。输入tokens处理得更快(称为“预填充”)。输入长度通常比输出长度大3到10倍。这增加了处理的总tokens数,解释了为什么输入和输出有单独的计费。
量化:使用8位整数或8位浮点数代替16位浮点数可以减少内存使用并加速处理,因为GPU访问的内存更少。较新的GPU也有较低位数的硬件指令,进一步提高了速度。例如,新的Nvidia Blackwell GPU支持4位浮点数(fp4)。量化还节省内存,允许更大的批量处理,使经济效益更高。
推测解码:这种方法使用较小的模型预测下一个tokens。例如,预测“you”在“it is good to see”之后不需要大型模型。较小的模型可以更快地做出这样的预测。Medusa算法就是这种方法的一个具体例子。
提示缓存:LLMs经常遇到重复的前缀,比如系统提示中的“you are a smart AI agent”。缓存这些预填充的提示可以避免重新计算,加快重复请求的速度。
优化GPU设置:这包括使用大型GPU处理大模型,小型GPU处理小模型,并将GPU与特定任务匹配——有些更适合预填充,有些更适合解码。这方面有很多优化机会。
这不是一个完整的列表。我们在运行时整合了这些方法(以及越来越多的方法),以确保在合理的流量下实现盈利。
Lepton由在过去十年中开发关键AI软件的专家(如Caffe、ONNX、PyTorch)以及云专家(如etcd的创建者和Kubernetes的核心贡献者)创建。我们不仅提供LLM API,还提供完整的云原生体验,帮助您在我们的云平台上查找、使用和优化GPU。”
关于Llama3 tokens 经济学的报告的翻译:
“
现在进入数学分析。
批量输出速度。单一并发405b推理通常有30 tokens/s的输出速度。我们知道并发有助于提高总吞吐量。因此,在实际操作中,假设合理的并发总吞吐量是10倍。这导致300 tokens/s的输出吞吐量。
输入tokens。我认为被忽略的一点是,输入tokens也是收费的。通常,如Dylan所指出的,输入tokens远大于输出tokens。一个常见的聊天机器人应用通常有2048个输入tokens和128个输出tokens(大约)。假设输入-输出tokens比为10:1以保持在这个范围内。因此,输出吞吐量为300 tokens/s的情况下,我们也在处理输入tokens为300*10=3000 tokens/s。
价格。总共(3000+300)=3300 tokens/s相当于每天285,120,000 tokens。根据目前Lepton每百万tokens的价格$2.8,收入为798.34美元。
机器成本。这有很大变化,所以我们以lambda按需价格为基准。每张H100卡的成本是$3.49/小时,因此一台8xH100的机器成本是3.49 * 8 * 24 = 670.08美元。
结合798.34美元的收入和670.08美元的成本,盈利是可能的。证毕。
现在,关于不确定因素的一些讨论。
A. 最重要的是,流量。流量不稳定。并发并不总是达到。输入和输出长度变化。这对所有无服务器服务都是常见的——数据库、中间件等。因此,上述第1和第2点是估计值。
B. 输入和输出都算在账单上。我认为这是讨论线程中最初的困惑。
C. 机器成本。如果假设无服务器API需要弹性,那么我们将需要按需GPU。如果我们有一个大池子,那么GPU价格会更低。我们使用$3.49,但当前运行的保留率接近2.5。
D. 推测解码。Dylan正确指出,推测解码对高并发情况没有帮助。这是对的。但在实践中,我们总是开启自动推测解码。真实流量总有高低,我们的运行时根据并发自适应开启推测解码。提示:加速效果通常在并发64左右失效。
E. 提示缓存。如果有很多冗余输入,那么提示缓存会启动,节省更多时间。对于混合流量的公共API来说,这种情况较少。对于专用API来说,这更重要。
F. 其他硬件。我以Nvidia H100为例。使用H200或MI-300等替代卡,我相信数字会有所不同,但结论相似。
再次感谢swyx dylan522p激发的讨论!请指出任何可能存在的问题。我在晚间招待会上喝了一杯酒,所以我可以安全地将其归咎于酒精。
”