AI 领域最火的就是 DeepSeek,消息源非常多,CBS NEWS 做了相关总结,评述了最近和 DeepSeek 有关的新闻。
DeepSeek 新技术可以和OpenAI的ChatGPT相媲,但最让人意外的是其训练成本,不到 600万美元,而 OpenAI、Google、Meta 的投资每年几百万美元,DeepSeek以更少的投入做了更多的事情,让人明白高投入、超大的基础设施并不能让美国在AI方面拥有绝对的优势。
周一,由于 DeepSeek 的低成本导致英伟达、ASML的股票大跌,英伟达股票下跌17%,市值蒸发6000亿美元,创下股市历史上单日最大跌幅纪录;ASML下跌6%;另一家半导体股Broadcom博通也下跌17%;GE Vernova,生产风力和燃气轮机的公司,下跌21%,而电力生产商Vistra下跌28%。科技股占比较大的纳斯达克指数下跌3%, 标普500指数下跌1.5%。蓝筹股道琼斯工业平均指数上涨0.7%。
更打脸的是,DeepSeek的最新APP发布距离特朗普宣布与ChatGPT制造商OpenAI、Softbank和Oracle合作的5000亿美元新项目“Stargate”仅几天,特朗普称该项目将确保美国的“技术未来”。
1:DeepSeek 何方神圣
DeepSeek是一家成立于2023年7月的私人中国公司,由毕业于浙江大学的梁文峰创立,预计拥有约80亿美元的资产。
2:DeepSeek在美国可用吗?
DeepSeek 的AI应用程序在Apple的App Store和其网站上都可用,该服务是免费的,截至周一上午,它是Apple商店的最热门免费下载。
DeepSeek 周二通告受到“大规模恶意攻击”,因此需要暂时限制新注册,只允许国内用户注册。
3:DeepSeek与其他AI应用有何不同
DeepSeek是一个开源的大型语言模型,依赖于所谓的“inference-time computing”,意思就是只为每个查询激活其模型中最相关的部分,从而节省了成本和计算能力。
• DeepSeek R1是我见过的最令人惊叹和令人印象深刻的突破之一——作为开源,这是对世界的深刻礼物
• DeepSeek的进步“表明AI竞赛将非常激烈”
4:DeepSeek对英伟达和其他科技公司意味着什么?
现在各路神仙在评估低成本AI工具对ChatGPT和其他所谓生成AI应用的长期影响,美国在在AI领域的技术进步上是否过度支出?
这项技术据称比美国模型消耗更少的能源且更具成本效益,这让美国科技投资者非常担忧。
还有一些分析师认为周一的股票抛售是过度反应,AI 需求仍然需要巨大的投入,虽然训练花费成本少,但推理仍然需要巨大的基础设施。
5:英伟达对此的评价
DeepSeek 是 AI 领域的一项重大进步,从分利用了 test-time scaling 技术,创造出了新模型,它源于充分利用了优秀的模型和符合出口管制的计算资源。
这个表达挺有意思,首先用的是符合管制的GPU,英伟达没有问题,估计是 H800 GPU;其次借助了优秀模型,减少了对资源的使用;第三使用了 test-time scaling 技术,我第一次听到这个词还是黄仁勋在 CES 2025 上讲的。
英伟达也补充,在推理阶段,使用 AI 模型做出决策或预测时,仍然需要大量的GPU和高性能网络支持,现在有了三种扩展规律,预训练扩展(pre-training scaling)、后训练扩展(post-training scaling)、以及新的测试时扩展(test-time scaling)。