"善攻者,敌不知其所守;善守者,敌不知其所攻。这基本就是美国和中国了。"
站在汇金国际大厦,透过巨大的落地窗,京杭大运河一览无余。楼下的环城北路,是杭州最繁忙的主干道之一。而在这座被嘈杂声包围的冷色调建筑里,诞生一家被美国硅谷称为 " 东方神秘力量 " 的公司。
如今恐怕都不能用 " 火热 "" 震惊 " 来形容它了。年末的时候,它迭代推出大语言模型 DeepSeek-V3,报道称 " 训练消耗的算力仅为最强大的开源模型 Llama 3 405B 的 1/11",轰动了全球 AI 圈。
这家 " 神秘 " 的公司便是 " 深度求索 ",大模型产品叫 DeepSeek,如今更新到第三代,手机注册账号,个人就能免费使用。创始人叫梁文锋,80 后,浙大高才生,也是深度求索母公司——私募巨头幻方量化的创始人。
梁文锋很低调,平时 " 看论文,写代码,参与小组讨论 ",甚至连 DeepSeek 机器人都反复纠正自己的老板叫 " 朱明杰 "。他提前囤了一万枚英伟达的 GPU,在大语言模型大门关闭前一只脚跨了过去。深度求索成了除大厂外唯一一家能做通用大模型的中国初创公司。
公司成立一年半,很年轻,休息日不加班。保洁阿姨说是一群不起眼的小伙子和小姑娘。而这帮目光澄澈的年轻人中,一个名叫罗福莉的 95 后脱颖而出,她仅仅参与了上一代大模型的关键研发,就被雷军用千万年薪招至麾下,媒体叫她 " 天才少女 "。
用梁文锋受访的话讲," 看能力,而不是看经验 ",核心技术岗位 " 基本以应届和毕业一两年的人为主 "。
过去的一年里,他们一边搞研究,一边拿着新鲜热乎的论文评奖。当有了一个不错的想法,公司会自上而下调动资源,所以即便一个实习生,都能在大模型的研发上贡献颇多。在硅谷圈,他们被描述为 " 一批高深莫测的奇才 "。
无论是团队特征还是运作结构,难免会让人想起那股曾风靡 AI 界的力量—— OpenAI。这便是媒体和早期采访中 DeepSeek 的样子。
DeepSeek 的规模不大,算上梁文锋不到 150 人,而 OpenAI 有 2000 多人。或许,从它进入公众视野的那一刻起,就注定会被拿来和 OpenAI 比较。
相较 OpenAI 的 GPT 系列产品,DeepSeek 在训练方法和模型架构上有多方面的创新。
虽然两者都是基于 Transformer 架构,但它采用了全新的 MLA(多头潜在注意力机制)架构,能降低 5% — 13% 的推理显存,而自研的 DeepSeekMoE 架构,大幅减少了计算量。
知名科技博主 Rick 张打了个比喻:
OpenAI 的训练方法是‘大水漫灌式’,拿来的数据放到‘黑盒’里训练,一次不行再试一次,直到行为止,因此很烧钱;DeepSeek 是先一步利用算法,对数据进行总结和分类,然后输送给大模型,类似把目录和框架先给到大模型,再将所有内容,按照这个分类和知识点,训练大模型理解并掌握。这意味着大模型的训练相比‘黑盒’变得更加规律和透明化。
通过此法,DeepSeek 形成了最大竞争优势——便宜,而且便宜到了 " 不可思议 "。
根据媒体报道,DeepSeek-V3 仅用了 2048 块 GPU,训练了不到 2 个月,共花费 550 多万美元。而 GPT-4o 模型训练成本约为 1 亿美元,这意味着 DeepSeek 的成本只有 GPT-4o 的 1/20。
OpenAI 创始成员之一
对 DeepSeek-V3 超低训练成本感到震惊
鲜为人知的是,上半年中国大模型价格战的 " 始作俑者 ",正是 DeepSeek。5 月,DeepSeek-V2 的推理成本被降到每百万 token 仅 1 块钱,是 GPT-4 Turbo 的 1/70,智谱 AI、豆包、通义千问等大模型先后跟进。
DeepSeek 也因此解锁新绰号—— AI 界拼多多。
然而,DeepSeek 并非和价格战中的一些玩家那样一直 " 亏钱赚吆喝 "。梁文锋曾说:" 我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。"
由于 DeepSeek 太过惊艳,难免会被怀疑 " 站在了巨人的肩膀上 "。
科技圈知名研究员 David 刘(化名),曾体验过 DeepSeek,他发现了一个早期的漏洞:当你问 DeepSeek 是谁的时候,机器人会回答 " 我是 ChatGPT"。
图源:网络
" 国内做大模型有个套路,喜欢拿 GPT 训练,速度又快又隐蔽。" 刘说," 相互训练只是全球各大模型训练的常规操作。当你问谷歌大模型产品‘你是谁’时,它同样会说‘我是文心一言’。"
不过,DeepSeek" 站在了巨人的肩膀上 " 更多是指 OpenAI 为它提供了创新的 " 踏脚石 "。
一位 DeepSeek 数据科学家表示,DeepSeek-V3 采用的一项关键项目创新建立在 FP8 上训练模型,而非 GPT 使用的 FP16。
简而言之,FP8 训练精准度更低。如果没有 GPT-4 等前沿模型 " 铺路 ",用较低的精准度训练是不可能的。
打个比方。你想从 A 地到陌生的 B 地,你不知道如何到达,甚至怀疑到底能否到达时,就会变得小心翼翼,步履维艰。但如果 A 点到 B 点确定能到,而且只要按照大致方向前进,你就会放心大胆地向前跑。
清华大学人工智能学院教授沈阳认为,从深度思考来看,DeepSeek 是国内大模型第一,也是全球开源大模型第一。
DeepSeek
在不少业内人看来,深度求索即将加入 " 大模型六小龙 " 的阵营。
" 大模型六小龙 " 指的是,经过一年多来的 " 百模大战 ",有六家估值超 10 亿美元的独角兽 AI 创业公司站稳了脚跟,分别是智谱、MiniMax、月之暗面、百川智能、零一万物和阶跃星辰,它们带着各自的产品紧跟国外领先大模型。
这六家公司都面临同样挑战。在算力上缺乏高端芯片,只能通过 AI 人才优化算法。商业化上面临国内大模型巨头在开发和流量上的优势,它们积极寻找差异化应用方向,以求在残酷的竞争中活下来。
但深度求索是个例外。
在七家中国大模型明星创业公司中,它是 " 至今专注于研究和技术的公司,也是唯一一家尚未全面考虑商业化,选择开源路线甚至都没融过资的公司 "。
或许梁文锋真的试图打破 " 国外从 0 到 1,中国从 1 到 N" 的定式思维——欧美人搞基础性研究,中国人负责应用落地。
而从如今欧美科技圈的各种评论来看,圣诞节后的 " 大礼 ",除了中国第六代战机,可能没有什么比推出一款对标 GPT、训练成本只要 500 万美元且开源的大模型更震撼了。以至于他们反思:难道电动车、无人机的故事,也会在 AI 领域重演吗?
当然,关于 DeepSeek 是否真的如媒体报道的那样效率极高、成本极低,还有待验证。为此,我们请来了一些科技领域的专家,通过亲身体验,来客观分析和评价一下 DeepSeek 的技术和前景,以及中美未来的图景。
大头有话说
张孝荣
深度科技研究院院长
关于 DeepSeek 的使用体验,我有四个感受。
◎ 第一,在问题答复、文字处理方面,跟其他国产大模型相比,相差并不明显,也时常容易出现 AI 幻觉。所谓的 AI 幻觉,指的就是 AI 工具给到的结论或资讯,存在一定的虚假成分或误导性。
◎ 第二,相较于其他大模型,DeepSeek 模型优点体现在多模态处理、高分辨率图片输入、开源与商用授权政策上。换言之,能理解多种类型的数据,从图片到音视频等等;可以再大尺寸分辨率图片中,识别图中细小的物体;并提供开源商用授权,为开发者和研究者提供技术支持。
◎ 第三,不足之处主要体现在处理极端复杂的情形,或者非常规的视觉 - 语言(VLM)场景时,还需要进一步优化。即让大模型在同时接收处理一些非常规的图像和文字时,表现有待提高。
◎ 第四,由于这个产品刚起步推广,至今也没有开发移动终端,社区和生态系统也有待完善。
进一步分析训练方法和原理,与包括 OpenAI 的其他大模型相比,DeepSeek 在高效性和成本效益方面具有明显优势。
DeepSeek 采用了混合专家架构(MoE)和多头潜在注意力机制(MLA),通过显著压缩键值(kv)缓存为潜在向量,减少了推理过程中对键值缓存的需求,提高了推理效率。
而以 OpenAI 为例,则更注重内部思维链(internal chain of thought)的构建,在回答问题前会主动思考,将复杂问题拆解为多个子问题。
此外,两者在训练数据的选择和优化上可能也存在差异。
DeepSeek 在架构设计和优化技术上进行了创新,包括混合专家架构、多头潜在注意力机制、优化预训练语料库等。这些技术使得 DeepSeek 能够在保持性能的同时,大幅度降低计算和存储需求。
通俗一点来说,包括以下做法:
1. 数据压缩:通过 MLA 架构和 FP8 混合精度,减少数据量,降低内存占用。
2. 选择性处理:优先处理重要数据,简化次要数据,提高训练效率。
3. 知识蒸馏:利用教师模型生成高质量数据,加速学生模型训练。
最终结果就是,DeepSeek-V3 作为一款参数量高达 671B 的大型语言模型,在预训练阶段只用了 2048 块 GPU,这一数字相比其他大型模型动辄几万块 GPU 来说仅是个零头,确实很少。
由于没有直接验证,关于坊间所谓的 "DeepSeek 以 1/11 算力训练出超过 Llama 3 405B 的开源模型 " 的真实性,我无法给出确切结论,如果这一说法属实,那么它确实涉及到底层技术的革命性变化。
不可否认的是,DeepSeek-V3 的训练方法确实给大模型训练降低研发成本提供了新思路。
作为 AI 领域的一股清流,DeepSeek 专注于研究和技术的态度值得肯定,它的实践打破了 " 算法越强算力需求越大 " 的认识误区,证明了大模型对先进算力的依赖并非如想象中那么强烈,可以有低成本的选择。同时,DeepSeek 的开源策略也为整个 AI 行业带来了积极影响,加速了技术的普及和应用。
何帅
资深科技自媒体人
从体验来看,DeepSeek 有自己的优点,比如在解决数学运算方面的逻辑性更强一些,但是在更广泛的知识层面的问答、常识上的问答就和百度等主流模型以及 OpenAI 的大模型 GPT-4 尚存差距。
关于媒体或专家所说的 DeepSeek 训练效率更高、成本更低这件事,甚至 " 用 1/11 的训练速度超过谷歌的 Llama" 等,目前还停留在报道层面,只是这些报道,再加上员工曾被小米高薪挖走等热点的叠加,让它突然火了起来。据我所知,它在量化交易上的表现较为优异,但其他商业化方面暂没有特别突出的表现,有待进一步观察。
相对可以肯定的是,DeepSeek 是 " 站在巨人的肩膀上 ",当前国内外的大模型发展都比较迅速,它作为 " 新人 " 自然可以集各家所长,进行训练数据的选择、模型架构的设计以及优化训练策略,这可能是它表现优异的原因之一。
至于拿它在训练效率上的突破,来延伸到对英伟达冲击,我觉得可能性不大,至少目前的影响很小。
中美之间,技术和人才的差距其实并不大,主要我们还是硬件部分受限,技术研究、软件生态方面,基本上和美国不相向下。
张津京
BT 财经创始人
去年六月,我国大模型和人工智能顶级专家之一、清华大学的张钹院士曾经排序,指出国内要想在大模型领域获得突破。第一个要注意的是知识,第二个注意的就是算法,第三个是数据,最后才是算力。
* 小巴注:据业内人士指出,知识可能是 knowhow 的意思,以供参考。
DeepSeek 的做法,实际上就是跑通了张院士的这套逻辑,也直接证明,国内人工智能学界对这件事情的认知和判断是正确的。
与此同时,它有可能会戳破美国制造的 " 人工智能硬件狂潮泡沫 "。
所谓的人工智能硬件狂潮,简单而言,即算力举足轻重,由此英伟达的卡要做得越来越好,卖得越来越贵,买的人却越来越多。因为算力跟不上,大模型就难以实现。
但现在的情况却相反:不需要那么多的算力也可以搞出很好用的模型。或许这也解释了为什么当前英伟达在到处寻找下一个阶段人工智能的机会,比如具身智能和机器人。
2025 年的大模型发展,大概率会往这样的方向发展。
第一,部分大模型不再沉醉于大规模的训练(OpenAI 在 GPT-5 上的推迟就是一个信号),而是开始像 DeepSeek 精耕细作,做好内部的训练。
第二,所有大模型都会去争夺应用领域,在细分场景里各自进化——就我们团队的使用体验来说,数据分析解读上,星火和通义千问就很不错;文章写作,文心一言效果最好;外文读写,智谱 AI;豆包,多模态处理能力;Kimi 大模型搜索上表现神奇等等——差异化竞争是未来方向。
业内资深人士
从业内视角看,DeepSeek 横空出世,肯定会面临一些质疑。原因在于,这么好的产品做出来了,但团队的成员,在历史上都尚未发表过比较有价值的论文,也没有成名的实战项目,大家心里自然会犯嘀咕。
但这件事情比较振奋人心的一面在于,它说明,中国在工程能力和工程人才的储备上,是比较夸张的,也是我们国家的核心优势。
就是我国科学家在面对这类问题时,一贯的看法是,用系统和工程的视角看问题,绝对可以超越对手。
这是钱学森先生当年提出的理论。
他将极其复杂的研制对象称为 " 系统 ",即由相互作用和相互依赖的若干组成部分结合成的具有特定功能的有机整体,而且这个 " 系统 " 本身又是它所从属的一个更大系统的组成部分。
例如,研制一种战略核导弹,就是研制由弹体、弹头、发动机、制导、遥测、外弹道测量和发射等分系统组成的一个复杂系统;它可能又是由核动力潜艇、战略轰炸机、战略核导弹构成的战略防御武器系统的组成部分。
研制这样一种复杂工程系统所面临的基本问题是:怎样把比较笼统的初始研制要求逐步地变为成千上万个研制任务参加者的具体工作,以及怎样把这些工作最终综合成一个技术上合理、经济上合算、研制周期短、能协调运转的实际系统,并使这个系统成为它所从属的更大系统的有效组成部分。
从这个意义上来说,美国更崇尚自由探索,工程师以算法和软件为主,最大的短板是工程师种类少、数量少、有吃苦精神的少。而中国恰恰相反,硬件工程师和可以 " 下工地 " 的工程师多。
比如,马斯克是典型的系统论,所以在美国显得特立独行,但在中国就有情感共鸣,从造电动汽车、火箭到人工智能,都有很强的系统论思想痕迹。
善攻者,敌不知其所守;善守者,敌不知其所攻。这基本就是美国和中国了。
还没有评论,来说两句吧...