中华网 china.com

新闻

OpenAI喜提姚班学霸姚顺雨

关键词:
2024-08-02 16:17:29  搜狐网

OpenAI喜提姚班学霸姚顺雨

清华姚班学霸姚顺雨,官宣加入了OpenAI。

OpenAI喜提姚班学霸姚顺雨

而就是这么一则简短的消息,却引来了圈内众人的围观和祝福,来感受一下这个feel:

其中不乏像OpenAI前沿研究主管、美国IOI教练

Mark Chen

,以及AI领域的教授、投资人等等。

那么这位姚顺雨,到底为何能够引来如此关注?

从他过往的履历来看,我们可以提炼出这样几个关键词:

  • 清华姚班

  • 姚班联席会主席

  • 清华大学学生说唱社联合创始人

  • 普林斯顿计算机博士

OpenAI喜提姚班学霸姚顺雨

△姚顺雨,图源:个人主页

但除了较为亮点的履历之外,真正让姚顺雨步入公众的视野,还是因为他的多项科研成果:

  • 思维树

    (Tree of Thoughts)

    :让LLM反复思考,大幅提高推理能力。

  • SWE-bench

    :一个大模型能力评估数据集。

  • SWE-agent

    :一个开源AI程序员。

毫不夸张的说,几乎每项研究都在圈里产生了不小的涟漪;并且非常明显的一点是,它们都是深深围绕着

大模型

而展开。

OpenAI喜提姚班学霸姚顺雨

这或许也正应了姚顺雨此次官宣里的一句话:

是时候将研究愿景转变为现实了。

至于这个“研究愿景”,我们继续深入了解一下。

研究关键词:Language Agents

如果纵观姚顺雨的主页,尤其是论文研究部分,就不难发现有一个出镜频率极高的词组——Language Agents

包括在他X主页中的简介,第一句话上来也是Language Agents:

OpenAI喜提姚班学霸姚顺雨

而这,也正是他博士毕业论文的题目:

Language Agents: From Next-Token Prediction to Digital Automation

OpenAI喜提姚班学霸姚顺雨

Language Agents,即

语言智能体

,是姚顺雨提出来了一种新的智能体类别。

和传统智能体不同的是,这种方法是将语言模型用于智能体的推理和行动,主打一个让它们实现

数字自动化

(Digital Automation)

至于具体的实现方法,则有三个关键技术

(均有独立的论文)

,它们分别是:

  • ReAct

    :一种将推理和行动相结合的方法,通过语言模型生成推理轨迹和行动,来解决各种语言推理和决策任务。

  • 思维树

    :一种基于树搜索的方法,通过生成和评估多个思维路径来解决复杂问题,提高语言模型的推理能力。

  • CoALA

    :一个概念框架,用于组织和设计语言代理,包括内存、行动空间和决策制定等方面。

OpenAI喜提姚班学霸姚顺雨

以ReAct为例,研究是将语言模型的动作空间扩充为动作集和语言空间的并集。

语言空间中的动作

(即思维或推理轨迹)

不影响外部环境,但能通过对当前上下文的推理来更新上下文,可以支持未来的推理或行动。

例如在下图展示的对话中,采用ReAct的方法,可以引导智能体把“产生想法→采取行动→观察结果”这个过程进行循环。

如此一来,便可以结合推理的轨迹和操作,允许模型进行动态的推理,让智能体的决策和最终结果变得更优。

OpenAI喜提姚班学霸姚顺雨

若是把ReAct的方法归结为让智能体

“reason to act”

,那么下一个方法,即

思维树

,则重在让智能体

“reason to plan”

OpenAI喜提姚班学霸姚顺雨

思维树是把问题表示为在树结构上的搜索,每个节点是一个状态,代表部分解决方案,分支对应于修改状态的操作。

它主要涉及四个问题:

  • 思维分解:将复杂问题分解为一系列中间步骤,每个步骤都可以看作是树的一个节点。

  • 思维生成:利用语言模型生成每个节点的潜在思维,这些思维是解决问题的中间步骤或策略。

  • 状态评估:通过语言模型对每个节点的状态进行评估,判断其在解决问题中的进展和潜力。

  • 搜索算法:采用不同的搜索算法

    (如广度优先搜索BFS或深度优先搜索DFS)

    来探索思维树,找到最优的解决方案。

OpenAI喜提姚班学霸姚顺雨

将思维树应用到“24点”游戏中,与此前的思维链

(CoT)

相比,准确率有了明显提高。OpenAI喜提姚班学霸姚顺雨

至于Language Agents中的最后一个关键技术,即

CoALA

,则是一种用于组织和设计语言智能体的概念框架。

OpenAI喜提姚班学霸姚顺雨

从下面的结构图来看,它大致分为信息存储、行动空间和决策制定三大模块。

信息存储是指语言智能体将信息存储在多个内存模块中,包括短期工作记忆和长期记忆

(如语义记忆、情景记忆和程序记忆)

这些内存模块用于存储不同类型的信息,如感知输入、知识、经验等,并在智能体的决策过程中发挥作用。

除此之外,CoALA将智能体的行动空间分为外部行动和内部行动;外部行动涉及与外部环境的交互,如控制机器人、与人类交流或在数字环境中执行操作。

内部行动则与智能体的内部状态和记忆交互,包括推理、检索和学习等操作。

最终,语言智能体会通过决策制定过程选择要执行的行动;而这个过程也是会根据各种因素、反馈,从中找出最优解。

OpenAI喜提姚班学霸姚顺雨

除此之外,还有像开源AI程序员的工作

SWE-agent

等,也在圈里广泛传播。

但我们从姚顺雨众多的科研课题中,除了Language Agents之外,还能看到他所追求的另一个关键词——

计算的思维

而这一点,其实在他念本科的时候便已经有所透露。

在即将奔赴普林斯顿大学攻读计算机博士学位前,作为2015级学长,姚顺雨曾在清华2019年各类型自主选拔复试的开营仪式上向复试考生分享了本人在清华的学习成长经历。

相关内容记录在他自己写的名为“你在清华姚班学到了什么?姚顺雨:足以改变世界”的文章中。

当时他从理论和实践两方面重点分享了计算的思维,并透露觉得四年下来,

最大的收获就是计算的思维

从理论上我们现在看到很多不可能做到的事情。所谓理论指导实践,我觉得更多的是说,我们得从一个高度理解一个系统的能力极限和事情难易,然后再选择能做的、有意义的事情去做。

和阳光开朗大男孩tag锁死,姚顺雨还分享了因清华南方浸润计划项目,前往阿根廷的经历:

我遇到了一群阿根廷的孩子……英语并不是世界通用的,阿根廷人说西班牙语。我曾经试图学西班牙语,但是我放弃了,因为我学计算机,我拿出了谷歌翻译。我跟他们说北京的故宫和长城……

OpenAI喜提姚班学霸姚顺雨

△来源:清华招生公众号

在他看来,这个时代,计算能和任何学科相结合,而世界很大,在清华可以做你想做的事。

说完姚顺雨,姚班还有哪些人在搞大模型?

爆火的大模型,姚班还有谁在搞?

不得不提的有

马腾宇

陈丹琦

OpenAI喜提姚班学霸姚顺雨

OpenAI喜提姚班学霸姚顺雨

俩人当年是同班同学,清华姚班2008级校友,并且之后都拿了具有“诺奖风向标”之称的斯隆奖。

OpenAI喜提姚班学霸姚顺雨

马腾宇博士就读于普林斯顿大学,导师是理论计算机科学家、两届哥德尔奖得主Sanjeev Arora教授。

博士毕业后,MIT、哈佛、斯坦福等顶尖高校都给了他助理教授的Offer,马腾宇最终选择了斯坦福。

去年年底,马腾宇还正式宣布大模型创业了——创立Voyage AI,透露将带队打造目前最好的嵌入模型,还会提供专注于某个领域或企业的定制化模型。

斯坦福人工智能实验室主任Christopher Manning、AI领域著名华人学者李飞飞等三名教授担任Voyage AI的学术顾问。

OpenAI喜提姚班学霸姚顺雨

陈丹琦这边,清华姚班完成本科学业后,2018年又在斯坦福大学拿下博士学位,主攻NLP,最终成为普林斯顿大学计算机科学系助理教授、普林斯顿语言与智能项目副主任,共同领导普林斯顿NLP小组。

其个人主页显示,“这些天主要被开发大模型吸引”,正在研究主题包括:

  • 检索如何在下一代模型中发挥重要作用,提高真实性、适应性、可解释性和可信度。

  • 大模型的低成本训练和部署,改进训练方法、数据管理、模型压缩和下游任务适应优化。

  • 还对真正增进对当前大模型功能和局限性理解的工作感兴趣,无论在经验上还是理论上。

OpenAI喜提姚班学霸姚顺雨

陈丹琦团队的大模型工作,量子位也有持续关注。

比如,提出的大模型降本大法——数据选择算法LESS,只筛选出与任务最相关5%数据来进行指令微调,效果比用整个数据集还要好。

而指令微调正是让基础模型成为类ChatGPT助手模型的关键一步。

提出爆火的“羊驼剪毛”大法——LLM-Shearing大模型剪枝法,只用3%的计算量、5%的成本取得SOTA,统治了1B-3B规模的开源大模型。

除了这两位,业界、学术界姚班校友在搞大模型的还有很多。

之前火爆全网的大模型原生应用《完蛋!我被大模型包围了》及其续作《我把大模型玩坏了》,就是由姚班学霸带队开发的。

游戏作者

范浩强

,旷视6号员工。当年以IOI金牌、保送清华姚班、高二实习等传奇事迹被誉为天才少年。如今他已是旷视科技研究总经理,谷歌学术h-index 32的行业大佬。

OpenAI喜提姚班学霸姚顺雨

马斯克xAI首个研究成果——Tensor Programs VI,共同一作中也有姚班校友的身影。

OpenAI喜提姚班学霸姚顺雨

Tensor Programs VI是xAI创始成员、丘成桐弟子杨格

(Greg Yang)

之前Tensor Programs系列工作的延续,论文重点探讨了“如何训练无限深度网络”。

据说Tensor Programs相关成果,在GPT-4中已有应用。为解读论文,杨格本人当时还专门在X上进行了一场直播分享。

共同一作

Dingli Yu

,本科毕业于清华姚班,目前Dingli Yu也快要在普林斯顿计算机科学系博士毕业了。

OpenAI喜提姚班学霸姚顺雨

还有很多很多…………

说回这次姚顺雨被挖到OpenAI,OpenAI这边的招聘动作还在继续。

OpenAI工程师Karina Nguyen发布最新招聘帖:

OpenAI模型行为团队招人啦!这是一个集设计工程与训练后研究于一体的梦想职位,也是世界上最稀有的工作❤️

我们使用诸如RLHF/RLAIF等对齐方法定义模型核心行为,以体现基本价值观并提升AGI的创造性智能。通过这些成果,我们与产品+模型设计及工程团队共同开创AI界面和交互新模式,这将影响数百万用户……

OpenAI喜提姚班学霸姚顺雨

有意思的是,Karina Nguyen其实之前是Anthropic AI

(Claude团队)

研究员,去年五月还和思维链“开山论文”一作、OpenAI的Jason Wei一同在X

(原Twitter)

上进行提示词决斗。OpenAI喜提姚班学霸姚顺雨

没想到Karina Nguyen这么快就跳槽到了OpenAI……

顺便提一嘴,就在昨天有消息爆料,谷歌DeepMind研究员Thibault Sottiaux也被挖到了OpenAI。

要知道,Thibault Sottiaux在Gemini初代和Gemini 1.5等论文中都是核心贡献者。

OpenAI喜提姚班学霸姚顺雨

由此可见大模型赛道目前火爆程度,各家抢赛道的抢赛道,抢人的抢人。

One More Thing

跟姚顺雨同年从清华毕业的,还有2位姚顺yu!

清华大学官方在2019年三位姚顺yu毕业时,发了一条微博,还晒了三人的合照。

除了现已加入OpenAI的姚顺雨,还有一个姚顺雨是来自

人文学院

日语专业的一位女生。

另一位姚顺yu是姚顺

,来自

物理系

,他是2018年本科生特奖得主,本科期间就以第一作者在物理顶刊PRL

(Physical Review Letters)

上发表论文两篇、PRB

(Physical Review B)

一篇。

OpenAI喜提姚班学霸姚顺雨

OpenAI喜提姚班学霸姚顺雨!

(责任编辑:卢其龙 CN070)
关闭

南阳鹦鹉案再审发回重审后检方撤诉:人工繁育鹦鹉引争议

南阳鹦鹉案 再审发回重审后检方撤诉2024-08-02 16:17:43

日本男篮官方:八村垒将退出巴黎奥运,腓肠肌受伤成遗憾

日本男篮官方:八村垒将退出巴黎奥运2024-08-02 16:15:39

韩国济州岛偶遇陈乔恩艾伦 甜蜜姐弟恋引热议

韩国济州岛偶遇陈乔恩艾伦2024-08-02 16:15:26

以色列情报人士:我们故意选择在伊朗暗杀哈马斯最高领导人

以色列情报人士:我们故意选择在伊朗暗杀哈马斯最高领导人2024-08-02 09:39:08

韩国济州岛偶遇陈乔恩艾伦 甜蜜姐弟恋引热议

韩国济州岛偶遇陈乔恩艾伦2024-08-02 16:15:26

全世界都很意外,美俄突然传来一个重大好消息

全世界都很意外,美俄突然传来一个重大好消息2024-08-02 09:25:14

邓雅文:夺金背后离不开国家支持,小轮车运动迎新契机

邓雅文:夺金背后离不开国家支持2024-08-02 16:12:29

记者:法比奥与国安续约两年,锁定锋线核心

记者:法比奥与国安续约两年2024-08-02 16:14:13

以变应变:火箭炮一直在“进化”

以变应变:火箭炮一直在“进化”2024-08-02 10:29:09

美媒:俄与西方进行冷战后最大规模换囚,拜登也直接参与其中

美媒:俄与西方进行冷战后最大规模换囚,拜登也直接参与其中2024-08-02 09:45:57

炸弹就在宾馆内,两个月前就藏好了?

炸弹就在宾馆内,两个月前就藏好了?2024-08-02 09:50:22

波音公司又捅篓子了……

波音公司又捅篓子了……2024-08-02 09:27:03

乌克兰获得首批F16?俄方:或从波罗的海三国起飞

乌克兰获得首批F16?俄方:或从波罗的海三国起飞2024-08-02 09:36:26

邓雅文:有时我是搞笑女,赛场外的甜妹风

邓雅文:有时我是搞笑女2024-08-02 16:07:57

英媒:伊朗和多个地区盟友将在德黑兰开会,商讨报复以色列

英媒:伊朗和多个地区盟友将在德黑兰开会,商讨报复以色列2024-08-02 09:38:22

关岛反导体系建设现状:建设没开始,装备没到位……

关岛反导体系建设现状:建设没开始,装备没到位……2024-08-02 09:37:05

6000万签19岁中场!巴黎为何挚爱葡萄牙人?

6000万签19岁中场!巴黎为何挚爱葡萄牙人?2024-08-02 16:05:52

安理会召开紧急会议,各方紧盯德黑兰行动,“中东站在悬崖边”引担忧

安理会召开紧急会议,各方紧盯德黑兰行动,“中东站在悬崖边”引担忧2024-08-02 09:43:08

日本男篮官方:八村垒将退出巴黎奥运,腓肠肌受伤成遗憾

日本男篮官方:八村垒将退出巴黎奥运2024-08-02 16:15:39

南阳鹦鹉案再审发回重审后检方撤诉:人工繁育鹦鹉引争议

南阳鹦鹉案 再审发回重审后检方撤诉2024-08-02 16:17:43

黎以紧张局势加剧,外媒:以色列外长发帖威胁黎巴嫩真主党领导人

黎以紧张局势加剧,外媒:以色列外长发帖威胁黎巴嫩真主党领导人2024-08-02 10:19:25

樊振东下一把得来个十环?解说回应 口误引热议

樊振东下一把得来个十环?解说回应2024-08-02 16:13:29

载有被俄释放在押人员的飞机抵达美国 换囚协议成功实施

载有被俄释放在押人员的飞机抵达美国2024-08-02 16:13:13

“2+2”会谈后,美菲急忙落实海军联演,专家:美国旨在进一步控制菲律宾

“2+2”会谈后,美菲急忙落实海军联演,专家:美国旨在进一步控制菲律宾2024-08-02 09:44:20

驾驶员被要求报800一小时陪驾课程 汽车爱好者改装私家车兼陪驾不合规

驾驶员被要求报800一小时陪驾课程2024-08-02 16:07:43

以色列国防部:刚刚拿到情报,哈马斯军事指挥官已被炸死

以色列国防部:刚刚拿到情报,哈马斯军事指挥官已被炸死2024-08-02 09:40:14

涉特朗普遇刺事件,CIA罕见回应

涉特朗普遇刺事件,CIA罕见回应2024-08-02 09:28:38

大V谈奥运赛场为何会出现爆冷

大V谈奥运赛场为何会出现爆冷2024-08-02 16:09:46

原来孙颖莎大学还没有毕业

原来孙颖莎大学还没有毕业2024-08-02 16:07:07

乌克兰频繁释放和谈解决冲突意愿,俄方回应:不会在谈判上作“领土让步”

乌克兰频繁释放和谈解决冲突意愿,俄方回应:不会在谈判上作“领土让步”2024-08-02 09:48:59

网友跪地祈祷花式助威樊振东 国乒荣耀的守护者

网友跪地祈祷花式助威樊振东2024-08-02 16:13:46

所谓“延伸威慑”把日本推向更远的歧途

所谓“延伸威慑”把日本推向更远的歧途2024-08-01 10:04:45

AI冒充外卖员要好评2.5元一条,是否涉嫌违法?

AI冒充外卖员要好评2.5元一条2024-08-02 16:11:17

塔雷米受伤重挫国米四前锋方案 锋线重组迫在眉睫

塔雷米受伤重挫国米四前锋方案2024-08-02 16:12:59

相关新闻