DeepSeek在大模型领域备受关注,其用人逻辑与其他公司相似,侧重于年轻且有潜力的人才,通常年龄在1998年左右出生,工作经验不超过五年。这些人才具备聪明、理工科背景和较少的工作经验。
与国内其他大模型创业公司相比,DeepSeek显得更为幸运,没有融资压力,也不需要向投资人证明自己,可以专注于技术迭代和产品优化。然而,作为一家商业公司,未来难免会面临类似的压力和挑战。
2024年中国大模型圈中,DeepSeek成为最火的公司之一。自去年年中发起大模型价格战以来,该公司通过发布开源模型DeepSeek-V3和推理模型DeepSeek-R1彻底引爆了舆论场。DeepSeek-V3仅花费557.6万美元训练成本,而DeepSeek-R1则因其出色的性能赢得了广泛赞誉。
这家低调的公司在算法创新方面表现出色,使得算力成本大幅下降。DeepSeek使用了一系列工程技巧优化了模型架构,如多头潜在注意力机制和混合专家模型结构,从而提高了训练效率并降低了成本。此外,DeepSeek还通过选择性处理数据来提高训练效率,实现了高性能与低成本的平衡。
清华大学计算机系长聘副教授刘知远认为,DeepSeek的成功证明了中国在有限资源下也能实现高效利用。Google DeepMind首席执行官德米斯·哈萨比斯也表示,虽然不清楚DeepSeek的具体依赖程度,但其成就令人印象深刻。
DeepSeek的成功并非一蹴而就,而是经过长期积累的结果。创始人梁文锋曾是头部量化私募幻方量化的创始人,积累了丰富的资金、数据和技术资源。DeepSeek团队成员主要来自国内顶尖高校,工作时间不长,团队管理扁平化,氛围自由。
尽管目前DeepSeek取得了显著成果,但行业人士提醒,现在高呼“中国AI已经超越美国”还为时过早。未来的发展路径尚不明朗,中国仍在追赶阶段。随着商业化进程的推进,DeepSeek将面临更多压力和挑战,但其加入对国内模型行业来说无疑是一件好事。
刚刚结束的三九,气温较常年同期明显偏暖,而1月17日开始的四九也是在偏暖中开场,不少网友直呼没有感受到“三九四九冰上走”的诚意。
2025-01-19 14:44:59四九会一直暖下去吗?暖冬是否成常态?专家解读短短一个月内,中国AI初创公司深度求索(DeepSeek)发布了两款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-26 15:51:02DeepSeek新模型火到海外