
3月3日,华泰证券发表研究报告称:2月24日起DeepSeek连续6天开源,在之前放出的模型参数、技术报告基础上,再次发布了Infra层的核心代码,涉及MLA、通信-计算、矩阵乘法运算、专家负载、文件存取等模块优化,旨在提高模型本身和硬件的效率,且国产GPU适配进展顺利。据DeepSeek数据,若将Web、APP和API的所有用户请求均以R1定价计费,则每日总收入将为562,027美元,成本利润率为545%。若考虑V3定价、夜间打折等因素,付费token占比50%情况下我们测算成本利润率有望达到108%,优化效果明显。认为,模型层的持续优化,有望持续降低应用层成本、提高应用表现。
DeepSeek在原先开源的基础上,再次开源Infra核心代码
此前DeepSeek在核心的V3/R1模型上,已经开源了模型权重,使得全球用户均可自行下载、部署和推理,并且配备了较为详细的技术报告,帮助有技术积累的团队实现技术复现。DeepSeek本次开源直接公布了V3/R1模型Infra层面的核心优化代码,涉及MLA、通信-计算、矩阵乘法运算、专家负载、文件存取等优化,相当于为技术报告中的算法分析直接提供了代码实现,进一步降低了技术复现的难度,并且许多优化方法可以被借鉴到其他模型的训练中。认为,全球模型的训练和推理效率有望迎来整体提升。
DeepSeek代码首先基于CUDA是效率考虑,而国产适配已见成效
由于DeepSeek在早期模型训练中使用Nvidia系列显卡,因此上周开源的核心代码也几乎是在CUDA环境中进行优化的。例如,DeepSeek针对FlsahMLA、DeepEP、DeepGEMM等算法给出的推荐配置,为NvidiaHopperGPU和CUDA12.3及以上版本。认为,DeepSeek的优势在于对软硬件全局的理解,能够结合自身模型训练的需求,更好的调配CUDA算子。这种理解能力是可以迁移到国产芯片上的,例如FlashMLA已经推出了适配摩尔线程、海光、天数GPU的版本,且各国产GPU厂商也在自行做相应的代码适配。随着国产GPU生态的逐步完善,类似算法或均能够实现很好的迁移,甚至直接原生在国产GPU环境下。
路径选择:海外大算力追寻边界突破,国内强优化追寻效率提升
认为,目前国内外模型大厂,已经开始走分化的道路。1)海外仍然以大算力探求边界提升:近期以xAI和OpenAI为典型代表,xAI将GPU集群从10万卡扩展到20万卡,训练出Grok-3,性能超过了o3-mini,部分指标相比R1有约20%性能提升。OpenAI则发布了旗下参数最大的预训练模型GPT-4.5,与DeepSeek-V3在公开的测评结果上性能接近。2)国内在软硬件效率优化上更加领先:以DeepSeek开源周为例,释放了核心的软硬件优化代码,使得理论上的成本利润率达到545%,并且优化方法能够复用。认为,后续DeepSeek的迭代重点或将仍在软硬件和算法优化上。
重要提示:本文仅代表作者个人观点,并不代表财中社立场。本文著作权归财中社所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至czs@caizhongshe.cn。