AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
工具生态逐步完善,通用Agent曙光已现计算机行业分析师:耿军军邮箱:gengjunjun@gyzq.com.cnSAC执业资格证书编码:S0020519070002——AI行业专题报告投资评级推荐维持证券研究报告2025年3月27日分析师:王朗邮箱:wanglang2@gyzq.com.cnSAC执业资格证书编码:S0020525020001请务必阅读正文之后的免责条款部分目录• 第一部分: Agent是人类的模仿者,调用工具来完成复杂任务• 第二部分:模型与工具并举,助力Agent成熟与普及• 第三部分: GUI Agent浪潮迭起,自主性通用性不断提升• 风险提示2请务必阅读正文之后的免责条款部分1 Agent是人类的模仿者,调用工具来完成复杂任务31AI Agent能够自主使用工具完成目标AI Agent能使用工具来在现实世界中获取实时信息或给出行动建议,为此,模型需要访问外部工具,自主规划和执行任务。宽泛地来说,生成式AI Agent可以被定义为一个应用程序,通过观察周围世界并使用可用的工具来实现其目标。Agent是自治的(autonomous),只要提供了合适的目标,它们就能独立行动,无需人类干预;即使是模糊的人类指令,Agent也可以推理出它接下来应该做什么,并采取行动,最终实现其目标。3图:AI Agent的运作范式图:AI模型的运作范式资料来源:Yu Huang, Roboraction.AI《Levels of AI Agents: from Rules to Large Language Models》,国元证券研究所资料来源:Yu Huang, Roboraction.AI《Levels of AI Agents: from Rules to Large Language Models》,国元证券研究所请务必阅读正文之后的免责条款部分1 Agent是人类的模仿者,调用工具来完成复杂任务41AI Agent能够自主使用工具完成目标Agent VS LLM:模型的知识仅限于其训练数据,AI Agent通过工具连接外部系统,在模型自带的知识之外,实时、动态扩展知识。模型缺乏原生逻辑层,需借助提示词工程或使用推理框架(CoT、ReAct等)来形成复杂提示,指导模型进行预测,而AI Agent自带原生认知架构,内置CoT、ReAct等推理框架或LangChain等编排框架。4模型AI Agent知识范围知识仅限于其训练数据通过工具连接外部系统,能够在模型自带的知识之外,实时、动态扩展知识状态与记忆无状态,每次推理都跟上一次没关系,除非在外部给模型加上会话历史或上下文管理能力有状态,自动管理会话历史,根据编排自主决策进行多轮推理原生工具无有,自带工具和对工具的支持能力原生逻辑层无。需要借助提示词工程或使用推理框架(CoT、ReAct等)来形成复杂提示,指导模型进行预测有,原生认知架构,内置CoT、ReAct等推理框架或LangChain等编排框架表:AI Agent与AI模型的区别资料来源:Julia Wiesinger, Patrick Marlow, Vladimir Vuskovic《2024 Google团队Agents白皮书》,国元证券研究所请务必阅读正文之后的免责条款部分1 Agent是人类的模仿者,调用工具来完成复杂任务52AI Agent基础组件:模型、工具、记忆、规划5资料来源:Lilian Weng《LLM Powered Autonomous Agents》,国元证券研究所AI Agent的基础组件包括:模型(model)、工具(tool)、记忆(memory)、规划(planning)。模型(model):Agent中用来做核心决策的大脑,可以是一个或多个任何大小的模型。规划(planning):将大型任务分解成较小的、可管理的子目标,从而高效处理复杂任务。工具(tool):基础模型在文本和图像生成方面非常强大,但无法与外部世界联动,有了工具,Agent便能够与外部数据和服务互动。记忆(memory):用于获取、存储、保留和稍后检索信息的过程,帮助Agent积累经验、自我进化,以更一致、合理有效的方式行动。图:LLM驱动的AI Agent系统请务必阅读正文之后的免责条款部分1 Agent是人类的模仿者,调用工具来完成复杂任务62AI Agent的结构——memory6图:大模型智能体记忆方法资料来源:数据科学人工智能公众号,国元证券研究所结构上,memory模块通常包含短期记忆和长期记忆,短期记忆暂存最近的感知,长期记忆存储重要信息供随时检索。格式上,可以用自然语言表达,或编码为向量嵌入提高检索效率;可以利用数据库存储,或组织为结构化列表表示内存语义。操作上,主要通过记忆读取、写入和反射三种机制与环境交互;读取提取相关信息指导行动,写入存储重要信息,反射总结见解提升抽象水平。请务必阅读正文之后的免责条款部分1 Agent是人类的模仿者,调用工具来完成复杂任务72AI Agent的结构——planning复杂的任务通常涉及许多步骤,规划(planning)作为一种结构化的思考过程,即组织思维、设定目标,并形成应对策略。Agent中推理和规划的能力由LLM来实现,推理和规划会赋予Agent学习的能力,有助于智能体学习积累知识和经验。Agent可以对过去的行为进行自我批判和反思,从错误中吸取经验,并为接下来的行动进行分析、总结,确保其与环境更好地保持一致,从而适应环境、更有效地执行任务并成功达成目标。7资料来源:AI应用研究Lab公众号,国元证券研究所图:Agent的反思框架请务必阅读正文之后的免责条款部分1 Agent是人类的模仿者,调用工具来完成复杂任务82AI Agent的结构——tools工具是基础模型与外部系统进行实时、上下文感知的桥梁,目前主要有Functions、Extensions、Data Stores、Plugins等方式。Extensions:一种以标准化方式连接API与Agent的组件,使Agent能够调用外部API,而不用管这些API背后的实现方式。Functions:模型可以设置一组已知的函数,根据规范决定何时使用哪个函数,以及函数需要哪些参数。Data Stores:向Agent提供增量数据,将传入的文档转换为一组向量数据库嵌入(embedding),为Agent所用来提取信息,典型的例子是检索增强生成(RAG)。8资料来源:Julia Wiesinger, Patrick Marlow, Vladimir Vuskovic《2024 Google团队Agents白皮书》,国元证券研究所图:Data Stores允许Agent访问各种格式的数据请务必阅读正文之后的免责条款部分1 Agent是人类的模仿者,调用工具来完成复杂任务93AI Agent仍处于发展初期9图:Agent等级分类资料来源:Yu Huang, Roboraction.AI《Levels of AI Agents: from Rules to Large Language Models》,国元证券研究所L1级—采用基于规
[国元证券]:AI行业专题报告:工具生态逐步完善,通用Agent曙光已现,点击即可下载。报告格式为PDF,大小3.32M,页数32页,欢迎下载。
