2025年9月18日,DeepSeek创始人梁文锋团队在《自然》杂志发表论文,详细介绍了他们最新大模型DeepSeek-R1的训练过程。这篇论文有几个关键信息:训练成本只要29.4万美元,而同类大模型动辄烧几千万甚至上亿美元,差距巨大。用了512颗英伟达H800芯片完成训练,但下一代模型R2将完全转向华为昇腾910B芯片。回应了外界对“模型蒸馏”的质疑,并通过同行评审,证明其技术路径是独立、可验证的。《自然》杂志特别指出,目前全球大多数大模型都没有经过独立学术验证,基本是企业自己说了算。DeepSeek是第一个把训练细节完整公开、接受科学检验的,等于是在全球面前“亮出底牌”。这不是普通的论文发表,而是对整个AI行业的一次“降维打击”。它说明:不需要天量资金、不需要美国芯片、不需要照搬美国模式,也能做出世界顶级的大模型。更关键的是,R2已经在路上。一旦发布,训练效率和性能可能再次跃升。这对那些靠烧钱堆出来的AI项目来说,意味着什么?很简单——你花几十亿做的东西,别人花几百万就能做到,甚至做得更好。几年前,美国禁止向中国出口高端AI芯片,英伟达H100、H800被列为禁售对象,当时很多人担心中国AI会“断粮”。但现在情况反过来了:中国不是“买不到”,而是“不想用”了。DeepSeek-R1虽然用了H800,但R2将全面转向华为昇腾910B。这不是出于政治表态,而是有实际支撑:国产芯片已经够用,甚至更好。昇腾910B在特定任务上的性能不输H800,而且不受外部断供威胁。模型效率提升,对芯片数量需求下降。DeepSeek-R1只用512块芯片就完成了训练,而美国……
右侧登录口登录后,可浏览全文
赞
赞
已有0人赞