ReAct: Reasoning + Acting
ReAct Prompt 由 few-shot task-solving trajectories 组成,包括人工编写的文本推理过程和动作,以及对
动作的环境观察.
ReAct Prompt 设计直观灵活,并在各种任务上实现了最先进的少样本性能,从QA到在线购物
Reason-only baseline (即思维链)由于没有与外部环境接触以获取和更新知识,而且必须依赖有限的内部知识,因此容易受
到错误信息(红色标记)的影响。
Act-only baseline 缺乏推理能力方面问题,在这种情况下,尽管具有与ReAct相同的行动和观察,但无法综合得出最终答案。
相比之下,ReAct通过可解释且真实可信的轨迹来解决任务。
使用 ReAct 提示轨迹在 HotpotQA 上进行初始微调的结果表明:
(1)ReAct 是各种模型规模中最好的微调方式;
(2)ReAct 微调的较小模型胜过了被提示(prompted)的更大模型。
代理的核心思想是使用LLM来选择一系列要执行的动作。
本文来自博客园,作者:nmblr,转载请注明原文链接:https://www.cnblogs.com/nmblr/p/18712056
参与评论
手机查看
返回顶部