开云(中国)Kaiyun·官方网站 - 登录入口一位连线巨匠在聊起 DeepSeek 时说:"清亮-开yun云(中国)Kaiyun·官方网站 - 登录入口

发布日期:2026-03-18 12:07    点击次数:77

发问:前几天,不管在中国如故在好意思国,你有莫得刷到过一家中国公司,作念 AI 的,叫 DeepSeek?

昨天刚开完会,公司一个小伙伴倏得来精神了,说:

"欸,阿谁前几天很火的 DeepSeek 尽然出 APP 了。"

一搜,还真有。

真低调。

可低调的背后,是连气儿刷了中国的屏,还刷了好意思国的屏的爆火。

2025 刚开动那几天,国内倏得出了个热搜:

"雷军千万年薪,挖角 DeepSeek 的中枢有计划员,95 后 AI 天才青娥罗福莉"。

许多东谈主在这句话里,看到了"雷军",看到了"千万年薪",看到了" 95 后 AI 天才青娥"。但其中许多暖和 AI 的东谈主,还看到了:" DeepSeek "。

因为,在更早的圣诞期间,这家中国的,作念 AI 的,以致不是大厂的公司,倏得刷了好意思国的屏。

2024 年 12 月 26 日,中国的 AI 公司 DeepSeek(汉文名叫"深度求索"),发布了一个最新 AI 大模子 DeepSeek-V3,并同步开源。

很快,无论是中国的 AI 圈,如故硅谷的大佬,好意思国的新闻,齐开动驳斥它。

国内许多媒体喊它"中国 AI 界拼多多","国货之光"。说,它解释了"就算算力被禁闭,中国也有可能搞出很好用的大模子"。

而在国际,在硅谷,更多东谈主喊它"来自东方的私密力量"。说,这下"好意思国从 0 到 1,中国从 1 到 N "的说法,可能要被破了 ......

这个倏得横空出世的中国 AI 公司,真那么锐利吗?锐利在哪?如何作念到的?到底什么来头?

我也很有趣。这几天看了一些贵府,也问了一些行业里的一又友。越了解,我越有一种嗅觉:

刷屏好意思国的 DeepSeek,不一定"私密",但确乎有点灵巧。

"来自东方的私密力量"

发问:当好意思国在刷屏聊这家公司的时候,齐在聊什么?

抛开多样一霎"颤抖",一霎"难以置信"的那些情谊不说,事实说来说去,大致即是 4 件事。

领先,性能,吓东谈主的好。

DeepSeek 的大模子,许多科目在跑分测试中,齐一举杰出了许多头部的开源模子。

要是单看"理科",比如代码编写和数学运算方面,更是径直不错上手,和民众顶尖的闭源模子掰手腕。

比如 OpenAI 的 GPT-4o,Meta 的 LLama-3.1-405B,阿里 Qwen2.5-72B......

这样强,价钱,还吓东谈主的低。

东谈主家好意思国的大模子扛把子,比如 Claude 3.5 Sonnet,API 价钱是每百万输入 token3 好意思元。国产的 DeepSeek-V3 呢?优惠狠起来,只消 0.1 元东谈主民币。

这样恐怖的性价比,如何作念到的?

梁文锋曾在暗涌的采访中说:"咱们的原则是不贴钱,也不赚取暴利。这个价钱亦然在成本之上稍稍有点利润。"

吓东谈主的性价比背后,是低得更吓东谈主的成本。

先大致看个账单:

DeepSeek-V3 的预检会经过,花了557.6 万好意思元,虚耗了280 万GPU 小时,2048 块GPU,而况如故英伟达针对中国市集的低配版:H800 GPU。

那别东谈主呢?许多财经新闻指出,OpenAI,谷歌,Meta,齐花了数亿,以致数十亿好意思元。

而 OpenAI 的早期成员 Andrej Karpathy 在酬酢平台上说:"要作念到这种水平,时时需要3080 万GPU 小时,和16000 块GPU。"

280 万,2048 块,几百万好意思元。

3080 万。16000 块。几亿以致几十亿好意思元。

径直差出 1 个零,以致几个零。

难怪 Meta AI 有计划科学家田渊栋发文说:"对 DeepSeek-V3' 极有限的预算 ' 和 ' 苍劲的弘扬 ' 深感惊喜。"

然而,到这里,依然还不是让他们最"惊"的。

好意思国的 CNBC 主播在新闻里说:"这家公司的大模子,在许多方面齐不输于 Meta 的 LLaMa 3.1 和 OpenAI 的 GPT 4o,趁机说一下,这些齐是最新最强的模子 ...... 而况,一又友们,别忘了这个事实:这家公司来自中国。"

超高性能,超廉价钱,超低成本,如故来自中国的 AI 公司。

很快,在硅谷,DeepSeek 开动被这样拿起:

"来自东方的私密力量"。

"小院高墙"

这个倏得横空出世的中国 AI 公司,到底,什么来头?

是不是,背后有高手?

OpenAI 的前战略摆布 Jack Clark 就曾说:DeepSeek "雇佣了一批深不可测的奇才"。

而 DeepSeek 独创东谈主梁文锋在一次采访里对此的回话是:"并莫得什么深不可测的奇才。齐是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年青东谈主。"

那,是不是,背后有成本?

毕竟,作念大模子,从来齐是少数东谈主的游戏。

有新闻深切,在许多粗造东谈主齐还没别传过 AI 的 2019 年,DeepSeek 就照旧囤了朝上 1 万张的英伟达显卡,用于算力基建了。

真锐利。但是,有朝上 1 万张,就足以让 DeepSeek 有上风吗?光看 2024 年一年,领有的等效 H100GPU 数目,Meta,是 55 万 -65 万,微软,是 75 万 -90 万。谷歌,更是 100 万 -150 万 ......

东谈主,钱,齐莫得什么零散的。那,东方,还有什么西方莫得的?

"小院高墙。"

这个 2018 年由好意思国智库建议的科技提神策略,繁衍出来的新闻,重要词基本齐长这样:

经管,禁运,禁闭,实体清单 ......

在好意思国 CNBC 的一个采访中,一位连线巨匠在聊起 DeepSeek 时说:

"清亮,他们莫得使用最新的芯片,也莫得那么大的算力,他们以致在这方面没如何用钱,但他们却征战了一个不错和 OpenAI 和 Meta 的模子竞争的模子。"

"他们是在哪个处所作念得这样好呢?"

许多东谈主,开动连夜翻时期文档。

是的。被称为"来自东方的私密力量"的 DeepSeek,在最中枢的时期上,却少许齐莫得玩私密:

他发布的大模子,齐是开源的。

每一步,如何作念的,什么旨趣,以致代码,齐写在公开的时期文档里。

通盘东谈主,粗率看。

"时期文档"

DeepSeek 的时期文档,一共 53 页。

打开,不是长这样:

即是长这样:

啊?这如何看?

我看法。我意会。这样一份文档,关于大大批粗造东谈主来说,确乎难啃。

好在,许多时期大牛,照旧连夜划了要点。

比如,最常见的这段:

这收货于罗致了 Multi-head Latent Attention ( MLA ) 和 DeepSeek MoE 架构,竣事了高效的推理和经济高效的检会。又引入了补助耗损目田负载平衡策略和多 token 量度检会目标,提高了模子性能。同期,在 14.8 万亿个高质地 token 上进行了预检会时,通过监督微长入强化学习阶段充分挖掘了后来劲。

看着如故太干?没事儿,再划成 3 个重要词:

MoE,MLA,无补助耗损的负载平衡策略和多令牌量度检会目标。

这,即是要看懂 DeepSeek 的"私密力量",至少,需要看懂这 3 个词。

我争取,用粗造话,帮你把它们重新说一遍。

我猜,听完你会以为很眼熟。

从那处提及呢?

就从,你对大模子的条件提及吧。

"私密力量"

发问:这两年,你有莫得用过什么 AI 大模子?

比如,好意思国的 ChatGPT?中国的文心一言 ? 通义千问 ?......

你用它的时候,齐对它有什么期待?

至少,我问它个什么,它的回答得靠谱吧?靠谱以外,一个回答弗成让我等上 1 分钟吧?......

又快,又好。

这,即是一个好的大模子居品,至少要作念到的 2 件事。

而这 2 件事,传到作念大模子居品的时期巨匠的耳朵里,就会自动被翻译成另外 2 个词:

大模子的复杂度,大模子的推理效果。

什么是复杂度?至少,这个大模子的脑子得饱和灵巧,能应酬饱和多,饱和复杂的问题。

脑子要灵巧,要多几根"筋"。大模子要灵巧,就得多几亿个"参数"。

此次发布的 DeepSeek-V3 大模子,参数就有 6710 亿个。

真多。关联词,这样多"脑筋"通盘动,得多资料啊?

确乎资料。是以,得烧钱,买卡,堆算力 ......

但是,你齐看见了。DeepSeek 没这样干。它们干了许多其它的。

其中,最常被东谈主提到的,是这 3 件 :

第一,把一堆"巨匠"给分开。

念念象一下,大模子,就像一个巨匠大本营。为了能尽可能地帮你干多样活儿,内部防范了多样限制的巨匠。

每次你一片活儿,就要呼啦啦地召唤这个巨匠大本营。尽头劳师动众。

DeepSeek,作念了少许优化:把巨匠们比物连类,每次有活儿,只喊其中一组相应的巨匠团出来就好。

这,即是 MoE 架构,也叫混杂巨匠时期。

这样分,原来每次有活儿,得惊动 6710 亿个参数,现时只消 37 亿个参数就不错了。多省力。

真灵巧。关联词,一个大模子,就算调的巨匠少了,每天要干的活儿如故超等多。有莫得办法更省力?

DeepSeek 又念念到了个办法:把要干的活儿,压少一些。

比如,搞个东西,让模子不错在干活儿时,学会"合手大放小"。精准到"元"就够的,就毫不精准到"毛"。大不了算完再派个巨匠,并吞验算一遍。

这个东西,就叫 MLA,也叫信息过滤器。能让模子只暖和信息中的重要部分,不会被不重要的细节散播扎视力。

有兴味。这样一来,对算力的依赖确定又能少好多。

可 DeepSeek 依然没高傲。"巨匠"和"活儿"齐盘了,那中间的"派活"呢?

我能弗成再搞个机制,让每个巨匠,齐能被合理单干。不至于要么给我闲着,要么忙到爆炸?

于是,就有了:无补助耗损的负载平衡策略和多令牌量度检会目标。

现时,再看回这 3 个词,你什么嗅觉:

MoE,MLA,无补助耗损的负载平衡策略和多令牌量度检会目标。

分巨匠,压活儿,合理单干。

嗯,很灵巧。关联词,不是在说"私密力量"吗?

这算什么私密力量?

"工程"

发问:如何才算"私密力量"?

能突破"小院高墙"?能冲破"国际从 0 到 1,中国从 1 到 N "的不雅念,带来颠覆性革命?

要是是这个圭臬,那 OpenAI 独创东谈主奥特曼,可能以为,不算。

在 DeepSeek 大模子发布后,他曾说:

" DeepSeek-V3,仅仅在复制已知有用的东西。但当你不知谈某件新奇、有风险且贫穷的事情是否会得胜时,去作念他是极其贫穷的。"

为什么这样说?是不是在酸?是不是在内涵?

这样,不如咱们先简单倒个带:

你说,"把一堆‘巨匠’给分开",算不算革命?

你说,"把要干的活儿,压少一些",算不算革命?

你说:"把活儿分拨得合理些",算不算革命?

或者更径直少许:"用几百万的成本,作念到东谈主家花几十亿才作念到的事",算不算革命?

看另一个时期大佬,闻明 AI 博主 Tim Dettmers,对 DeepSeek 的评价。

他说:"这是资源设施下的工程。"

他还说:"这一切看起来齐那么优雅:莫得花哨的‘学术’惩处决策,惟有纯正的,塌实的工程。尊重。"

工程,工程。

什么是工程?

径直搜"工程",你会看到这个界说:

"工程是一个具有规则开动和终结时分的任务,需要使用一种或多种资源,并由多个彼此寥寂、彼此干系、彼此依赖的看成组合。"

但要是,当你收到客户投诉"收到的薯片有包装是空的"时,别东谈主会和你说:

"装监控","作念视频识别",或者,"花 100 万,研发一条新的活水线" ......

但工程师,可能会和你说:

"花 100 块,在现时的活水线终末,装个大吹风机,吹出刚好能吹跑空包装的就行。"

工程,即是就算在有限资源下,也一定要把事作念成,而况还要把效果作念到最高。

回看 DeepSeek 的革命,有些,确乎是开创。比如,无补助耗损负载平衡,就来自 DeepSeek 八月的论文。

也有些,是"在已有的活水线上装上吹风机"。比如,优化前就照旧存在的 MoE,MLA......

花 100 万作念个新活水线,花 100 块加个大吹风机。

从 0 到 1,从 1 到 N。

刷屏好意思国的 DeepSeek,不一定私密,但确乎灵巧。

恭喜。

也祈福,2025 年,更多的"从 1 到 N ",和,"从 0 到 1 "。

* 个东谈主不雅点,仅供参考。

编缉 / 尤安 剪辑 / 二蔓 版面 / 黄静开云(中国)Kaiyun·官方网站 - 登录入口







Powered by 开yun云(中国)Kaiyun·官方网站 - 登录入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024