APP下载

AI | Agent: FAQs

翻译

AIAgent

你是高耸入云的星辰,我是穿行于孤寂之河的怪人 —— 《小小的我》

Original: Demystifying AI Agents: Frequently Asked Questions (FAQ) 


Powered by AI Agent Translator.

All Costs: $1.3.

LLM: GPT-4o.

Polished by FuJia


AI Agent会是一次突破性的技术发展,还是生成式AI炒作过程中的又一个最新热词呢?在一个被AI吸引了所有人目光的世界里,“agent”、“assistant”和“copilot”等术语已经随处可见,既让人兴奋,也让人怀疑。 我们是否正处于一个Agent将从根本上重塑各行各业和工作流程的时代,还是说当我们的目光转向下一个技术热点时,它也随着销声匿迹?

本文深入探讨AI Agent的核心,包括围绕这项技术的关键问题, 如下:

  • 什么是AI Agent?
  • AI Agent的不同类型是什么?
  • LLM应用场景有哪些(聊天机器人、助手、副驾驶和代理)?
  • 如何构建AI Agent(生命周期)?
  • AI Agent技术栈的组件是什么(架构)?
  • 什么是AI Agent框架?
  • 我们学到了什么经验(以及应该避免哪些陷阱)?

未来的文章将解决许多其他问题。其中最常被问到的问题包括:

  • 现在是投资代理AI的合适时机吗?
  • 我们现有的投资(包括技能)能在多大程度上被利用?
  • 谁成功实施了AI Agent?
  • LLM推理能力的改进将如何影响2025年的代理用例?

应该如何开始?

尽管AI Agent的概念仍处于初期阶段,但各组织必须现在就开始奠定基础,以保持领先。本博客旨在揭开推动这一新兴领域的基础思想的神秘面纱,提供清晰和方向。 如果您更喜欢视频格式,可以在这里观看。

  1. 什么是AI Agent? 从本质上讲,代理是一个为人类和组织自动化任务和操作而设计的程序。可以把它看作一个更智能的专业数字双胞胎。其关键创新在于利用基础模型,使自动化既具有上下文意识又具有自主性。 虽然自动化本身并不新鲜,机器人流程自动化(RPA)几十年来一直在提高生产力,但AI Agent超越了僵化的规则系统。它们处理需要高水平思考、推理和解决问题的认知任务,由生成式AI驱动。这使它们能够处理非结构化数据,如文档、视频、图像和音频。 例如,客户服务AI Agent可以分析传入的电话录音,了解其内容和上下文。基于这种理解,代理可以采取适当的行动,如解决问题、升级到正确的团队或提供即时反馈。这不仅减少了手动工作量,还通过及时准确的响应提高了客户满意度。

AI Agent如何工作 代理通过如图1所示的多步骤过程工作。 感知:代理感知并解释其环境,确定期望的结果。例如,代理可能会检测到潜在客户请求信息或安排演示的新电子邮件。在这种情况下,“环境”是电子邮件客户端,如Microsoft Outlook,代理可以作为销售开发代表(SDR)的数字双胞胎运行。这使代理能够智能地处理和响应,复制SDR的角色,自动化关键任务并简化工作流程。 推理:在此阶段,代理解释期望的目标。然后将此目标分解为实现它所需的细化任务。此过程由具有高级推理能力的大型语言模型(LLM)驱动,如OpenAI的O1。LLM采用链式推理、推理-行动(ReAct)和少样本学习等技术,将目标系统地分解为可操作的子任务。这种结构化的方法使代理能够有效地导航复杂任务。 计划:代理制定执行任务和启动必要行动的策略。例如,负责重新安排潜在客户会议的销售开发代表(SDR)代理可能会创建一个“多步骤”计划:更新会议时间,发送确认重新安排的电子邮件,并通知团队更改。对于每个子任务,代理会确定实现目标的最有效方法,确保精确性和与整体目标的一致性。行动:最后,代理人通过无缝连接到相关记录系统来协调工作流程。利用检索增强生成(RAG)和函数调用集成等模式,他们在执行子任务时确保安全性和合规性。他们利用短期记忆处理活动会话,并通过外部应用程序管理长期记忆,例如检索数据库管理系统中存储的客户偏好或购买历史。这种集成使代理人能够提供上下文感知、个性化和高效的结果。

代理人模拟现实工作流程,并适用于各行各业,从预订航班到处理银行交易等。它们与现有系统无缝互动,并在必要时将问题升级到人工处理。未来设想每个人都能拥有一个根据其独特需求定制的个人AI助手或代理人。这些助手可以帮助学生完成作业或准备考试,并充当旅行规划师。这类AI Agent人旨在通过在各种角色和活动中提供智能、个性化的支持来改善日常生活。ERP的未来可能涉及AI Agent人,这可能会颠覆传统的单一系统。

尽管存在一些怀疑,AI Agent人正在迅速普及。LangChain的AI Agent状态调查显示,在1300名受访者中,超过50%的公司已经在生产中使用代理,而近80%的公司正在开发代理。

细节决定成败;因此,显而易见的问题是:如何构建或部署这些代理人?在回答这个问题之前,我们需要进一步了解代理人的各种形式。

  1. AI Agent人的类型

在2024年11月的微软Ignite大会上,该公司强调了AI Agent人在其产品组合中的集成,包括SharePoint、Teams和Microsoft 365。这些代理人抽象了底层模型的复杂性,使其像创建PowerPoint演示文稿一样直观。微软将代理人分为四类:个人、组织、业务流程和跨组织。

图2展示了一个2x2矩阵,从功能和范围边界的角度提供了另一种分类不同类型代理人的方法。这种方法有助于澄清代理人在其角色和处理任务的范围方面的差异,从高度专业化的窄范围代理人到管理更广泛活动的多功能代理人。

任务型: 专注于离散的、定义明确的单一任务。适当的范围界定确保确定性输出和可重复性。他们的目标是通过处理耗时的任务来提高个人生产力。这些也被称为“窄代理人”,因为它们在指定领域表现出色,但缺乏将其知识或技能推广到其他不相关任务的能力。 示例:旅行预订助手、研究和总结副驾驶。 任务型代理人可以根据其能力范围分为“窄”或“广”。窄任务代理人是专业化的,旨在执行特定功能或解决特定问题,而广任务代理人则更具多功能性,能够处理各种任务并适应不同情况。下一个示例展示了一个广任务代理人,展示了其在不同背景下管理多重职责的灵活性和能力。

流程型: 设计用于管理特定领域的端到端工作流程,例如供应链、客户服务、医疗诊断、金融或零售。这种类型的代理人也被称为领域特定代理人。 在图2中,示例展示了一个欺诈检测代理人,该代理人执行一系列任务,包括检测异常、进行根本原因分析、解决问题、发出警报和发送通知。这个代理人无缝地将多个功能连接在一起,展示了其在欺诈检测过程中自主处理复杂工作流程、确保及时响应和彻底行动的能力。 示例:药物发现代理人、推荐引擎和客户细分工具。

角色型: 针对支持定义任务的角色特定功能,例如数据工程师、DevOps专业人员或项目经理。他们可以协助代码生成或帮助解决数据转换和质量任务。 角色型代理人也可以根据其范围分为广或窄。 示例:SDR代理人、客户成功副驾驶、供应链助手、财务顾问代理人。

有几种分类不同类型代理人的方法,基于各种因素: 学习方法:基于当前输入的反射型,目标导向的代理人朝着特定目标工作,效用型优化最大价值,基于模型的使用内部模型做出决策,而学习型代理人通过经验提高性能。环境交互:反射代理仅对当前输入作出反应,时间代理考虑行动随时间展开的方式,情景代理独立处理每个事件,序列代理考虑过去的经验和未来的行动 架构:神经网络型、规则型、逻辑型、概率型 自主性级别:监督代理在人工控制下工作,半自主代理需要一定的人类监督,完全自主代理独立操作。 理解AI Agent的类型至关重要,因为这使组织和开发人员能够将代理的目的与最合适的基础模型、工具和基础设施对齐。这种对齐可以显著影响代理的成功和成本效益。此外,识别所需的功能,如推理能力、适应性或实时响应能力,确保每种代理类型都能有效地优化,以满足其特定的功能和性能需求。除了业务需求之外,识别非功能性需求也是至关重要的,例如可扩展性、性能、伦理和偏见问题、安全性和访问控制、可靠性、可调试性和可观察性。 一个实用的策略是缩小AI Agent的范围,以减少复杂性,同时保持自主性。从小任务开始,将复杂过程分解为定义明确的、细化的子任务,确保每个任务都能高效完成。 代理系统设计和架构的 LLM既是语言处理器也是智能层。例如,LLM可以有效地理解编写代码的指令。然而,在代理架构中,其能力进一步扩展:同一个LLM可以生成单元测试用例,批判性地评估结果,并利用反馈迭代地改进原始代码。 这些随机性模型在各种语言任务中表现出色,如理解、提取和总结。然而,它们可能在需要推理、数学、规划或一致性的更复杂任务中表现不佳,使其在这些领域不可靠且非确定性。 尽管代理系统在利用自然语言方面比传统软件系统更灵活和更具创造力,但它们仍借鉴了软件工程和机器学习的关键设计原则。例如,代理系统通常结合数据库和REST/API接口,以支持Web、移动或本地应用上的终端用户应用程序。它们还利用机器学习原则,如模型微调、超参数调优和参数优化,确保代理针对特定用例和上下文进行定制。 图4提供了代理系统设计过程的详细视图。 如图所示,代理结合了软件工程的核心原则,如错误处理和可靠性,以及机器学习的优化方法。除了这些基础元素之外,代理系统还引入了额外的层,赋予其自主性、规划、记忆以及感知和与外部环境交互的能力。这些附加功能使代理能够更动态和高效地行动,使其适应各种现实世界的场景。 代理评估和测试 评估模型一直是AI开发中的关键任务,促成了像MMLU、GPQA和MATH等多个开源基准的创建。然而,当涉及到评估代理时,过程变得更加复杂。必须测试代理以确保其在可靠性和安全性方面达到预期效果。但与典型的基准不同,代理评估中的任务或问题边界通常高度特定于代理的领域,这使得开发通用评估方法具有挑战性。标准评估可能无法捕捉代理可能遇到的现实任务或不可预见的场景。 此外,代理操作的环境是动态的,难以准确再现。这进一步增加了代理评估的复杂性。评估代理的推理和规划能力至关重要,特别是对于那些负责管理复杂多步骤过程的代理。传统的测试方法需要适应代理输出的随机性和概率。 虽然传统的软件测试倾向于关注定量指标,但代理评估需要定量和定性方法的结合,以全面评估其表现。图5概述了一个整合这些原则的代理评估框架。 让我们详细看看每个步骤。 测试案例开发 首先建立一个标准化的代理评估环境。例如,要评估数据分析代理,确保能够访问相关的数据库、SQL查询引擎和报告或仪表板。明确定义特定代理用例的功能,并识别对用户和业务都重要的关键绩效指标(KPI)。 接下来,识别代理将执行的相关任务和子任务,使您能够创建覆盖这些不同组件的评估范围。定义一组测试,以评估代理的多步骤推理能力。这些测试应包括引入不确定性的场景,以便评估代理在这些条件下的表现。 对于这些测试中的每一个,将代理的表现与人类的表现进行比较,以评估其处理复杂推理任务的能力。最后,根据这些测试确定KPI,以便对代理的推理和决策能力进行定量评估。 评估标准识别测试用例在功能和非功能需求之间的正确分布对于成功将代理部署到生产环境中至关重要。必须在广泛的功能范围内对代理进行评估。例如,评估工具使用效率、模型特定结果和多轮对话输出。此外,还应包含评估代理处理偏见、安全措施和防护措施的测试。还应测试代理处理多个并行请求和有效处理异步响应的能力。建立详细的性能指标,包括响应时间、任务完成率和决策准确性。

对代理的定量评估,例如数据分析代理,可能涉及比较手动运行的SQL查询与代理运行的输出。这些评估相对简单明了。然而,对于更复杂的任务,例如研究代理总结学术论文时,定性评估变得必要。在这种情况下,生成文本的质量必须从准确性、完整性和深度方面进行评估。

对LLM/代理输出的定性评估已经催生了各种评分策略。这些策略大致可以分为通过/失败评估(准确性)、文本属性评分(情感、相似性、礼貌)、可读性评估(如ARI分级)、摘要(如ROUGE)和相关性评分(如答案相关性、可信度)。

由于人工定性评估可能成本高且耗时,通常采用替代方法。一种常见的方法是利用另一个LLM或模型进行评估,有效地使用“LLM作为评判”来评估输出,使评估过程更具可扩展性。

测试结果报告 创建一个标准化的报告和分析框架,以跟踪多个代理评估运行中的关键绩效指标(KPI)。测试结果虽然可以总结为通过或失败,但也应提供每个单独任务的详细见解。这包括分配特定任务相关的分数,并提供明确的解释说明为什么给出特定分数。这确保了透明度,有助于理解代理的优势和改进领域,促进更明智的决策。

测试执行 定性指标和其他LLM的使用并非总是万无一失。虽然测试结果可能被报告为通过或失败,但它应经过关键的人工评估阶段。LLM对测试结果的高低评分作为有用的输入,但不应成为最终结果的决定因素。人工评估仍然是验证测试结果和确保代理性能可靠的必要步骤。

评估框架应根据生产中的见解不断优化。确保测试用例代表实际部署场景非常重要。随着新挑战或机会的出现,更新和添加在规划阶段未考虑到的测试用例。这种持续的适应将有助于保持测试过程的相关性和稳健性。

代理部署 代理部署结合了经典LLM模型部署、软件应用程序和数据工程管道的最佳实践。与这些领域一样,部署代理没有一刀切的方法。常见做法包括使用容器和CI/CD(持续集成/持续部署)设置来简化更新和管理。

代理可能使用对象存储作为持久层,以存储各种形式的知识、长期记忆和向量数据库工件。或者,代理可以直接部署在数据库内部,例如,使用Snowflake的Snowpark容器服务作为本地应用程序。这种方法允许代理在运行时受益于数据库内置的访问控制、动态扩展和负载平衡功能,确保高效和安全的操作。

代理监控和可观察性 没有适当的监督,AI Agent可能变得不可预测、低效,甚至对组织流程有害。实施强有力的检查点以减轻风险、保持内部政策合规并确保道德AI部署至关重要。这不仅包括跟踪代理的行为,还包括了解它们如何做出决策和与各种系统交互。必须制定明确的升级协议,以便在代理遇到超出其能力范围的场景或表现出潜在风险行为时,允许立即进行人工干预。

传统的可观察性工具侧重于基本指标,提供预测性维护和行为模式识别。然而,AI Agent监控增加了上下文感知的可观察性,使团队能够监控代理性能的更复杂方面。领先的可观察性提供商和云服务正在集成AI Agent监控功能,同时也有一波新兴的专业供应商。

监控AI Agent的常见指标包括跟踪输入(提示)和输出(完成)令牌,以及识别令牌消耗随时间变化的趋势,以评估代理的效率和性能。面向任务的代理系统架构将复杂任务分解为更小的、可管理的子任务,从而提高功能隔离,降低复杂度,并提高可维护性并缩短事件响应时间。子任务可以并行处理,允许独立扩展和更高效的资源分配。它们也是可重用的,通过组合它们可以创建新的功能,并且可以共享提示和逻辑等组件。 图6展示了代理系统的架构,展示了其模块化和可扩展的设计。 代理架构的关键组件包括: 用户界面 UI使代理能够通过自然语言接口(NLI)使用语音命令或文本输入感知并与环境互动。代理应能够理解和响应自然语言查询,包括复杂请求和后续问题。界面应根据用户的偏好和技能水平动态调整,同时保护用户数据的安全和隐私。除了文本和语音输入外,用户界面还可以包含摄像头或麦克风等传感器。 在多代理环境中,用户界面还应能够接收其他代理的输入。代理提供其推理和决策过程的透明度至关重要。这包括提供清晰的错误信息并在需要时提供改进建议。 UI与任务协调器/控制器接口,由两个关键组件组成:任务规划器和计划执行器。 任务规划器 任务规划器将复杂目标分解为细化的、可执行的步骤,并根据依赖关系、资源可用性和截止日期对任务进行排序。它调用位于共享资源层(如图6所示)中的适当LLM,应用逻辑推理来优化任务排序。 规划器识别潜在挑战并提出替代方案,根据实时反馈、环境变化或资源限制调整计划。作为工作流协调器,任务规划器确保各代理组件之间的无缝协调,并在每个过程阶段触发适当的操作。 计划执行器 在紧密协调的工作流中执行子任务涉及高级技术,如提示工程、链式推理、少样本学习、RAG和函数调用接口。计划执行器可以通过API调用或Python函数来触发外部操作。 虽然典型的AI工作负载如RAG是无状态和原子的,但代理架构需要维护状态。记忆在这种情况下成为关键组件,因为代理需要保留环境状态、用户偏好和历史执行数据。这种记忆可以是情景性的或无限的,取决于代理的需求。 工作流中的每个操作都被视为有状态事务,并具备回滚和错误传播机制。代理必须确保事务完整性,同时遵守安全和合规指南,确保所有过程以安全可靠的方式执行。 验证 通过判断和反思,代理自主适应变化的情况,使其能够做出与不断变化的情况一致的决策。在代理遇到超出其能力的挑战时,应设计为将问题升级为人工干预。这确保了系统在面对现实世界的复杂性时保持可靠和响应。 反馈循环对持续改进至关重要,因为代理从互动结果中学习并随着时间改进其性能。这些循环还使系统能够优化未来的决策过程,使其在交付预期结果方面更有效。此外,验证循环作为一个重要的保障,确保响应符合道德标准并不偏离既定指南。这个循环有助于减轻风险并保持代理行为在动态环境中的完整性。 共享资源层(记忆) 这一层包含LLM提供商和记忆管理等基本工具。短期记忆有助于跟踪特定线程或会话中的任务执行或对话流程,确保互动过程中保持上下文。另一方面,长期记忆允许代理在多个会话中保留信息,使其能够回忆过去的互动、用户偏好和随着时间积累的知识。 语义记忆存储与特定任务或互动相关的已学事实或知识,使代理能够引用先前获取的信息来改进响应。这种能力对于提高任务准确性和个性化至关重要。 情景记忆类似于人类记忆,使代理能够记住特定事件或互动。当用户希望重新访问过去的对话或情景时,这种类型的记忆非常有价值,使代理能够回忆之前在特定主题上的交流细节,增强未来互动的连贯性和相关性。根据AI Agent的类型(如在问题#2中讨论的),这里提到的概念可以以各种形式体现。在推理和行动之间反复迭代,或反思过去的表现,可以帮助优化响应并改进未来的输出。常见的迭代推理技术包括:

ReAct(推理-行动) ReAct将推理和行动整合在一个连续的循环中,将思维生成和决策结合在一个过程中。这种方法允许代理反复生成推理步骤并采取相应的行动。虽然它在探索开放性问题时很有用,但它并不保证确定的输出或可重复的体验。

自我反思 这种技术引入了自我反思,模型可以根据反馈调整其响应。它通常涉及重新审视先前的步骤,纠正错误或优化推理以改进解决方案。反馈循环帮助模型从过去的决策中学习,逐步改进其响应。

LLM模块框架 LLM模块框架使用大型语言模型(LLM)作为计划生成器,但依赖外部批判循环进行验证和反馈。框架的有效性和可重复性取决于外部批判循环的范围和质量,这些循环根据具体的用例进行定制。

这些技术增强了AI Agent的迭代和适应性,使其能够优化流程并提供更准确、上下文感知的结果。

  1. AI Agent框架 在代理系统架构中,如图6所示,任务被分解为多个子任务,这些子任务利用共享资源层的工具、LLM和内存。这种模块化方法实现了高效执行、实时反思和对变化环境的动态适应。代理框架的主要目标是抽象复杂的底层过程,使开发人员能够专注于解决核心业务问题,而不被技术细节所困扰。

为了提供最佳的开发者体验,代理框架应提供: 低代码开发工具以及专业代码SDK,以便轻松构建、测试和实验。 模板和定制选项,以高效处理特定领域的业务逻辑和任务编排。 与各种服务的连接器和集成,以无缝执行特定功能和工作流程。 企业级功能,如治理、安全和可观察性,以确保合规性并跟踪代理性能。

这个话题值得深入探讨,因此我们在这里简要讨论。此外,代理框架的领域正在迅速发展,供应商提供的解决方案从专有系统到开源平台不一而足。鉴于这一领域的动态性质,未来可能会出现显著的整合。

在此FAQ中,我们重点介绍了一些具有代表性的代理框架,按字母顺序排列以确保中立和包容性选择。

Amazon Bedrock Agents与其模型以及知识库数据源紧密集成。 Crew.ai作为一个开源产品被广泛使用。它提供多个AI Agent的实时编排。开发人员可以在Crew.ai中开发代理并将其部署在合作平台如IBM的watsonx中。 Google Cloud的Vertex AI Agent Builder利用Google的基础模型并将代理植根于企业数据。AI Agent Space是供应商的代理市场,由Google内部及其客户和合作伙伴构建的代理。这些代理可以定制或作为SaaS出售。 IBM Bee Stack具备框架应有的大多数功能,还允许通过网络浏览器创建代理。其bee-code-interpreter在沙盒环境中运行用户或生成的Python代码。 LangChain的LangGraph支持创建循环工作流程,用于迭代和递归任务。它正在广泛采用。 Microsoft AutoGen和Magnetic-One都是基于Python的框架。前者是一个更灵活和可定制的框架,而后者是一个更专门的框架,用于构建通用AI Agent。在Ignite 24上,Copilot Studio展示了对Azure中1800个模型的访问。 Salesforce的Agentforce在2024年9月的Dreamforce上推出,已有10,000个代理构建完成,其中许多在销售和营销垂直领域。它利用其Data Cloud基础。它还拥有Atlas推理引擎,以提高结果的准确性和可靠性。 许多软件供应商,如H2O、SAP和DataRobot,已经推出了自己的代理框架。这一快速发展的领域突显了AI Agent在各个行业中的日益重要性。这份名单绝不是详尽无遗的,将随着许多其他供应商积极开发和发布其框架而更新。

  1. 经验教训在过去的几个月里,AI Agent研究取得了显著进展。然而,许多最近的博客和讨论表明,另一个“人工智能寒冬”的威胁迫在眉睫,或者需要加倍努力发展生成型人工智能,特别是AI Agent。如果你感到被生成型人工智能的快速发展和矛盾的叙述所压倒,你并不孤单。关于生成型人工智能产品中虚假信息的持续报道正在对其可靠性产生怀疑,而管理层的期望与生成型人工智能用例实际结果之间的差距不断扩大,构成了一个重大挑战。

从初步经验中汲取见解对于理解这些挑战的真正规模至关重要。整个AI Agent的工作流程,包括规划、推理、自我学习和代理评估,仍需取得重大进展。这些领域必须发展,以缩小期望与现实之间的差距,为更可靠和有效的AI Agent部署铺平道路。

图7展示了在构建和部署AI Agent时面临的一些主要挑战。

规划 部署AI Agent的最大挑战可能在于选择合适的用例和目标客户。当期望设定过高时,可能会导致失望和潜力未能实现。从技术角度来看,没有明确任务或过程边界的用例不适合代理架构,因为它在结构化、定义明确的环境中表现最佳。此外,缺乏直观的用户体验和初期的低可靠性等挑战进一步复杂化了问题。

鉴于AI Agent在初期固有的较低可靠性,组织应关注那些对错误容忍度较高的用例,例如研究或探索性任务。对代理的准确性和可靠性设定正确的期望对于确保利益相关者了解当前的局限性和潜在的好处至关重要。

范围 AI Agent在某些领域(如客户服务和编程)已显示出成功,但它们仍处于发展的早期阶段,使得有效地确定项目范围和计划变得更加具有挑战性。一个关键问题是自主代理尚未完全成熟,使得准确评估其部署所需的资源、时间表和范围变得困难。

测试、评估LLM输出和迭代所需的时间通常比传统软件开发过程更长。虽然代理开发遵循软件工程的一般开发模式,但测试和迭代更接近于机器学习开发中使用的方法。这一区别使得AI Agent的开发生命周期比典型的软件项目更复杂和耗时。

技术 AI Agent领域的技术挑战涉及几个关键领域:LLM推理能力不足、缺乏标准化的代理评估基准以及代理框架的初期状态。

虽然大型语言模型(LLM)取得了显著进展,但在提高其推理能力方面仍有许多工作要做。传统上,LLM主要通过增加数据和计算能力来取得进展。然而,随着我们接近规模定律的极限,重点必须转向提高其可靠性和推理能力。

最近,强大的推理模型的开发激增,其中一些是开源的或足够小,可以在边缘设备上运行,为克服这些限制提供了希望。这些模型可能为AI Agent提供更强的推理能力。

另一个挑战是代理框架的选择。许多框架在没有明确了解用例的具体需求的情况下被选择。这可能导致使用不适合生产环境的框架。此外,缺乏这些框架的标准化评估标准,使得评估它们在实验或概念验证(PoC)阶段与生产部署中的适用性变得困难。

技能 AI工程仍然是一个不断发展的领域,雇用有构建复杂解决方案(如代理或检索增强生成(RAG)模型)实际经验的熟练AI工程师可能具有挑战性。这种缺乏经验丰富的人才可能会在项目开始时引入不确定性。

对于没有内部专业知识的组织来说,围绕构建、购买或共同构建解决方案的决策过程对于推动成功的项目实施至关重要。平衡这些选项需要仔细考虑资源可用性、长期需求以及与带来专业知识的外部合作伙伴或供应商合作的潜力。

价值 展示明确价值仍然是一个重大挑战,不仅对于AI Agent,而且对于生成型人工智能的更广泛成功也是如此。虽然大型语言模型(LLM)的成本在过去两年中显著下降——主要是由于输入和输出令牌价格的降低——但总体定价模型仍然不透明,并且在不同平台供应商之间差异很大。例如,微软的Copilot工作室选择了一种基于消息数量而非令牌使用量的定价模式。这种定价策略的转变反映了AI服务成本结构的演变,其价值主张仍在发展,对于企业和终端用户来说难以量化。供应商之间定价模式的不一致性增加了不确定性,使得组织难以有效规划和预算AI的采用。

考虑到这些挑战,组织是否应该放弃他们的智能代理探索?虽然最终决定权在业务团队,但值得注意的是,许多当前的障碍可能会在未来12个月内得到解决。在此阶段进行实验的组织将在新进展出现时处于最佳位置,能够最大限度地利用这些进步。

祝您在智能代理架构之旅中一切顺利!

Appendixes

  1. Demystifying AI Agents: Frequently Asked Questions (FAQ) - https://sanjmo.medium.com/demystifying-ai-agents-frequently-asked-questions-faq-a9748b4f55e6 
  2. Blog's video - https://youtu.be/57vPUqJAq1s 

评论区

写评论

登录

所以,就随便说点什么吧...

这里什么都没有,快来评论吧...