中华网 china.com

新闻

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方

关键词:
2025-01-03 16:10:11  news360


显卡可能没那么重要了!我是万万没想到,就在西方还沉浸在圣诞假期,疯狂“过年”的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。


前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。


紧接着又来了个


国产大模型DeepSeek,甚至有股做空英伟达的味道。具体咋回事儿,咱给你唠明白咯。前几天,DeepSeek刚刚公布最新版本V3,注意,与大洋彼岸那个自称Open,却越来越Close的公司产品不同,这个V3是开源的。


不过开源还不是他最重要的标签,DeepSeek-V3

(以下简称V3)

还兼具了性能国际一流,技术力牛逼,价格击穿地心三个特点,这一套不解释连招打得业内大模型厂商们都有点晕头转向了。


V3一发布,OpenAI创始成员Karpathy直接看嗨了,甚至发出了灵魂提问,


难道说大模型们压根不需要大规模显卡集群


我估计老黄看到这头皮都得发麻了吧。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



同时,Meta的AI技术官也是直呼

DeepSeek的成果伟大

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



知名 AI 评测博主 Tim Dettmers ,直接吹起来了,表示 DeepSeek 的处理优雅 “elegant” 。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



而在这些技术出身的人,看着V3的成绩送去赞扬的时候,也有些人急了。


比如奥特曼就搁那说,

复制比较简单啦

,很难不让人觉得他在内涵DeepSeek。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



更有意思的是,做到这些的公司既不是什么大厂,也不是纯血AI厂商。


DeepSeek公司中文名叫深度求索,他们本来和AI没任何关系。


就在大模型爆火之前,他们

其实是私募机构幻方量化的一个团队


而深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。


早在2019年,幻方就投资2亿元搭建了自研深度学习训练平台“萤火虫一号”,到了2021年已经买了足足1万张英伟达A100显卡的算力储备了。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



要知道,这个时候大模型没火,万卡集群的概念更是还没出现。


而正是凭借这部分硬件储备,幻方才拿到了AI大模型的入场券,最终卷出了现在的V3。


你说好好的一个量化投资领域的大厂,干嘛要跑来搞AI呢?


深度求索的CEO梁文锋在接受暗涌采访的时候给大家聊过,并不是什么看中AI前景。


而是在他们看来,“

通用人工智能可能是下一个最难的事之一

”,对他们来说,“这是一个怎么做的问题,而不是为什么做的问题。”


就是抱着这么股“莽”劲,深度求索才搞出了这次的大新闻,下面给大家具体讲讲V3有啥特别的地方。


首先就是性能强悍,目前来看,在V3面前,开源模型几乎没一个能打的。


还记得去年年中,小扎的 Meta 推出模型 Llama 3.1 ,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在 V3 手里,基本

是全面落败


而在各种大厂手里的闭源模型,那些大家耳熟能详的什么 GPT-4o 、 Claude 3.5 Sonnet 啥的, V3 也能打得有来有回。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?


残暴的还在后面。


大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。


在这个炼丹期,需要的是大量算力和时间往里砸。


所以在圈子里有了一个新的计量单位“GPU时”,也就是用了多少块GPU花了多少个小时的训练时间。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



GPU时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。


前面说的此前开源模型王者, Llama 3.1 405B ,训练周期花费了 3080 万 GPU 时。


可性能更强的V3,

只花了不到280万GPU时


以钱来换算,DeepSeek搞出V3版本,大概只花了4000多万人民币。


而 Llama 3.1 405B 的训练期间, Meta 光是在老黄那买了 16000 多个 GPU ,保守估计至少都花了十几亿人民币。


至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



你别以为DeepSeek靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。


为了搞清楚DeepSeek的技术咋样,咱们特地联系了语核科技创始人兼CTO池光耀,他们主力发展企业向的agent数字员工,早就是DeepSeek的铁粉了。


池光耀告诉我们,这次V3的更新主要是3个方面的优化,分别是

通信和显存优化

推理专家的负载均衡

以及

FP8混合精度训练


各个部分怎么实现的咱也就不多说了,总体来说,大的整体结构没啥变化,更多的像是咱们搞基建的那一套传统艺能,把工程做得更高效、更合理了。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



首先,V3通过通信和显存优化,极大幅度

减少了资源空闲率

,提升了利用效率。


而推理专家

(具备推理能力的AI系统或算法,能够通过数据分析得出结论)

的负载均衡就更巧妙了,一般的大模型,每次启动,必须把所有专家都等比例放进工位

(显存)

,但真正回答用户问题时,十几个专家里面只用到一两个,剩下的专家占着工位

(显存)

摸鱼,也干不了别的事情。


而DeepSeek把专家分成热门和冷门两种,

热门的专家,复制一份放进显存,处理热门问题;冷门的专家也不摸鱼,总是能被分配到问题


FP8混合精度训练则是在之前被很多团队尝试无果的方向上拓展了新的一步,通过降低训练精度以降低训练时算力开销,但却神奇地保持了回答质量基本不变。


也正是这些技术上的革新,才得到了大模型圈的一致好评。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



通过一直以来的技术更新迭代,DeepSeek收获的回报也是相当惊人的。


他们V3版本推出后,他们的价格已经是

低到百万tokens几毛钱、几块钱


他们甚至还在搞了个新品促销活动,到明年2月8号之前,在原来低价的基础上再打折。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



而一开始提到同样开源的 Claude 3.5 Sonnet ,每百万tokens,至少都得要几十块以上。。。


更要命的是,这对DeepSeek来说已经是常规套路了。


早在去年初,

DeepSeek V2 模型发布后,就靠着一手低价,被大家叫做了AI 界拼多多。


他们还进一步

引发了国内大模型公司的价格战,

诸如智谱、字节、阿里、百度、腾讯等大厂纷纷降价。


池光耀也告诉我们,他们公司早在去年6、7月份就开始用上了DeepSeek,当时也有国内其他一些大模型厂商来找过他们。


但和DeepSeek价格差不多的,模型

“又太笨了

跟DeepSeek不在一个维度

”;如果模型能力和DeepSeek差不多,那个价格“

基本都是10倍以上

”。


更夸张的是,由于技术“遥遥领先”带来的降本增效,哪怕DeepSeek卖得这么便宜,根据他们创始人梁文峰所说,

他们公司还是赚钱的

。。。是不是有种隔壁比亚迪搞998,照样财报飘红的味道了。


不过对于我们普通用户来说,DeepSeek似乎也有点偏门了。


因为他的强项主要是在推理、数学、代码方向,而多模态和一些娱乐化的领域不是他们的长处。

显卡可能没那么重要了?中国公司给硅谷好好上了一课 新年惊喜震撼西方



而且眼下,尽管DeepSeek说自己还是赚钱的,但他们团队上上下下都有股极客味,所以他们的商业化比起其他厂商就有点弱了。


但不管怎么说,DeepSeek的成功也证明了,在AI这个赛道还存在的更多的可能。


按以前的理解,想玩转AI后面没有个金主爸爸砸钱买显卡,压根就玩不转。


但现在看起来,掌握了算力并不一定就是掌握了一切。


我们不妨期待下未来,更多的优化出现,让更多的小公司、初创企业都能进入AI领域,差评君总感觉,那才是真正的AI浪潮才对。


(责任编辑:张蕾)
关闭

专家称未来十年提高居民收入只有靠服务业

专家称未来十年提高居民收入只有靠服务业2025-01-03 16:09:38

王慧玲为什么被封号

王慧玲封号2025-01-03 16:07:25

俄乌士兵近身肉搏画面罕见曝光 匕首牙齿齐上阵

俄乌士兵近身肉搏画面罕见曝光2025-01-03 14:44:26

一个人值几十万!中国人在缅北被“交易” 电诈园区的黑暗真相

一个人值几十万,中国人在缅北被交易2025-01-03 16:04:54

小麦“疯”涨!1月3日最新行情! 涨价空间有限

小麦疯涨,1月3日最新行情2025-01-03 15:49:03

工作人员回应十二生肖图有猫无蛇 古代习俗差异引发热议

工作人员回应十二生肖图有猫无蛇2025-01-03 15:50:37

男子自编自演5元卖地铁座位被行拘 虚假信息博关注

男子自编自演5元卖地铁座位被行拘2025-01-03 15:57:54

乌称首次用海上无人艇击落俄直升机 开创海空作战新方式

乌称首次用海上无人艇击落俄直升机2025-01-03 13:35:15

5个关键词直击尹锡悦逮捕令执行全程 宪政史首次对峙

5个关键词直击尹锡悦逮捕令执行全程2025-01-03 14:37:12

“海洋侦探”号,交付! 新年开门红

海洋侦探号交付2025-01-03 15:56:18

韩国空难遇难机长哥哥的亲笔信

韩国空难遇难机长哥哥的亲笔信2025-01-03 14:41:50

专家称未来十年提高居民收入只有靠服务业

专家称未来十年提高居民收入只有靠服务业2025-01-03 16:09:38

尹锡悦写信感谢总统府外的支持者

尹锡悦写信感谢总统府外的支持者2025-01-03 14:36:48

韩国对总统警卫处长等人立案调查 因妨碍公务执行

韩国对总统警卫处长等人立案调查2025-01-03 15:09:48

一名前俄罗斯国脚死在乌克兰的故事 从球场到战场的悲剧转变

一名前俄罗斯国脚死在乌克兰的故事2025-01-03 15:21:53

博主:塞尔吉尼奥乘坐的航班已抵京,一名00后中卫接近加盟国安 新援助力阵容升级

博主,塞尔吉尼奥乘坐的航班已抵京,一名00后中卫接近加盟国安2025-01-03 16:05:26

普京低调访问华盛顿?俄方辟谣

普京低调访问华盛顿?俄方辟谣2025-01-03 14:40:24

赵明剑谈当年离开泰山队原因 1.6亿转会费揭秘

赵明剑谈当年离开泰山队原因2025-01-03 15:53:27

王慧玲为什么被封号

王慧玲封号2025-01-03 16:07:25

马斯克震怒:开特斯拉炸特朗普酒店的居然是特种兵 疑为恐怖袭击事件

马斯克震怒,开特斯拉炸特朗普酒店的居然是特种兵2025-01-03 13:41:47

全红婵希望大家多关注跳水 感谢支持与认可

全红婵希望大家多关注跳水2025-01-03 15:51:04

曝赵薇从未和黄有龙回湖南老家 离婚消息引发热议

曝赵薇从未和黄有龙回湖南老家2025-01-03 15:55:46

张一山发自拍疑回应暴瘦传闻 敷面膜翻白眼逗乐网友

张一山发自拍疑回应暴瘦传闻2025-01-03 15:55:13

中国篮协发布2025年竞赛日历 优化赛事安排

中国篮协发布2025年竞赛日历2025-01-03 16:02:28

青岛皇家美孚辟谣“倒闭” 紧急回应澄清传闻

青岛皇家美孚辟谣倒闭2025-01-03 16:02:57

俄乌士兵近身肉搏画面罕见曝光!

俄乌士兵近身肉搏画面罕见曝光2025-01-03 14:38:54

美一飞机与鹰相撞 鹰受伤被安乐死 航班因鸟击返航

美一飞机与鹰相撞鹰受伤被安乐死2025-01-03 15:56:51

尹锡悦律师团进入总统官邸 调查合法性受质疑

尹锡悦律师团进入总统官邸2025-01-03 14:02:47

波音当下困境比911时刻还要黑暗!

波音当下困境比911时刻还要黑暗2025-01-03 13:43:07

相关新闻