DeepSeek V3 模型按照官方说法训练只花了不到 600 万美元,但其实有很多的前置成本。
比如 V3 模型中的多数功能又与 2024 年初发布的 V2 模型共用,V2 有两个重要的组件:DeepSeekMoE 和 DeepSeekMLA,前者代表了多重专家混合(Mixture of Experts),与 ChatGPT4 类似,将训练出的 AI 分为多种专家,根据对话内容调用合适领域的专家,从而达成更精准和高效率的回应。后者则是多头潜在注意力机制,在 AI 对话中,需要加载模型和文本,每个 token 需要对应的 key 和 value,MLA 则能够压缩 value 的存储空间,从而减少内存需求。
但 V2 的训练成本多少,目前好像没有透露,到了 V3 模型,DeepSeek 在 V2 基础上,引入负载平衡和多重 token 预测机制,进一步提升训练效率,官方表示训练 V3 模型总共使用了 278.8 万 H800 GPU 小时,按每小时 2 美元推算,整体训练成本就是 557.6 万美元。
而 DeepSeek R1 的训练成本官方说是 557.6 万美元,和 V3 模型差不多,也就是说想要做出 R1 模型,并不是拿 H800 跑 280 万个小时就能做出来,还必须有前置研究、反复实验和前置算法架构。
目前这种前置研究和训练,看来是层次式、解耦式,这给未来的 AI 研究带来了很多的提示。