语言空间中的动作
(即思维或推理轨迹)
不影响外部环境,但能通过对当前上下文的推理来更新上下文,可以支持未来的推理或行动。
例如在下图展示的对话中,采用ReAct的方法,可以引导智能体把“产生想法→采取行动→观察结果”这个过程进行循环。
如此一来,便可以结合推理的轨迹和操作,允许模型进行动态的推理,让智能体的决策和最终结果变得更优。
若是把ReAct的方法归结为让智能体
“reason to act”
,那么下一个方法,即
思维树
,则重在让智能体 “reason to plan”
思维树是把问题表示为在树结构上的搜索,每个节点是一个状态,代表部分解决方案,分支对应于修改状态的操作。
它主要涉及四个问题:
思维分解:将复杂问题分解为一系列中间步骤,每个步骤都可以看作是树的一个节点。
思维生成:利用语言模型生成每个节点的潜在思维,这些思维是解决问题的中间步骤或策略。
状态评估:通过语言模型对每个节点的状态进行评估,判断其在解决问题中的进展和潜力。
搜索算法:采用不同的搜索算法
(如广度优先搜索BFS或深度优先搜索DFS)
来探索思维树,找到最优的解决方案。
将思维树应用到“24点”游戏中,与此前的思维链
7月8日早晨9点10分,四川省2024年的第一封大学录取通知书从四川大学望江校区启程,预示着接下来四川省的考生们将会陆陆续续收到属于自己的大学录取通知
2024-07-08 10:03:00四川首封高考录取通知书来了随着2024年高考落下帷幕,烟台市的教育成果再次成为亮点。该市共有13名学生在全省排名前100,7名更是闯入前50,这份骄人的成绩映射出烟台教育的深厚底蕴
2024-07-08 10:08:28高考706分的烟台考生王铭宇:想去清华大学姚班1月15日,天眼查App显示,姚振华新增4则被执行人信息,执行标的共22.71亿余元。
2024-01-16 08:56:21姚振华被强制执行22亿高考进程过半,部分“学霸”已提前完成了他们的考试征程。根据浙江现行的新高考制度,学生在首考中若取得满意成绩,可选择在后续的正式高考中免试某些科目。
2024-06-11 14:56:07学霸1天考完高考江苏省中医院消化系肿瘤外科主任姚学权,在经历6年与癌症的斗争后,于2024年7月12日下午2时28分在南京离世,终年59岁
2024-07-16 20:00:5859岁肿瘤专家姚学权病逝