玩酷网

DeepSeek-V3 的训练只用了2.788M H800 GPU hours。

DeepSeek-V3 的训练只用了2.788M H800 GPU hours。也就是两千台H800 (H100的中国定制低配版)训练两个月.