当人工智能Agent承担工作时,我们会失去什么?
智能Agent产品在处理工作方面已经变得非常出色。
Claude Code 能够编写和重构大段代码。Cursor 能帮助开发者更快地浏览代码库。Devin 及其他任务导向型 Agents 则致力于接管更长的工作流程。除了编码之外,Agents 还能起草邮件、处理文档、汇总数据、更新工单,并自动化处理那些过去需要人工直接参与的重复性任务。
这些产品大多都做出相同的承诺:只要给智能代理提供足够的上下文信息,它就会为你处理更多执行工作。这一承诺固然有用,但也引发了一个智能代理产品尚未完全解答的问题:当智能代理承担更多工作时,我们会失去什么?
答案并非仅仅是“人工投入”。任务或许完成了,但人类可能跳过了曾经用于培养判断力的部分过程:阅读、追踪、调试、比较选项、犯错,以及学习为什么一种解决方案优于另一种。
这并不意味着Agents不利于学习。这意味着在设计Agents产品时,必须将学习纳入考量。如果它们仅以输出结果为优化目标,就可能剥夺了那种有助于人类提升Agents所依赖标准的宝贵经验。
思考这一问题的有效方法是借鉴自动驾驶系统中的“自主性阶梯”概念。虽然这种类比并不完美,但有助于区分Agents产品中不同类型的进步:
- L1 Agents执行任务。人类下达指令,Agents予以执行。
- L2级Agents具备记忆能力。它们通过存储偏好、修正信息和项目背景,在不同会话中进行学习。
- L3级Agent应用标准。人类定义规则、约束和决策标准,而非指导每个步骤。
- L4级Agent能提升人类能力。它不仅完成工作,还能帮助人类保持并深化判断力。
目前业界仍主要关注前三个级别。这合乎情理。执行、记忆和标准都是亟待解决的产品问题。但L4级别才是长期风险显现之处。如果人类停止进步,指导Agents的标准也将停止进步。
L1:Agents执行
AI 应用开发已经历了多个抽象层级的演变:
- 起初,开发者通过API调用模型:发送文本,获取文本结果。
- 随后出现了提示工程,其核心技能在于学习如何提出更好的问题。
- 随后是上下文工程,其任务在于为模型提供足够的示例、约束条件和背景信息,使其能在特定情境下发挥实际作用。
- 随后是框架工程:将模型与工具、工作流、文件、数据库、浏览器、终端及生产系统相连接。
- Agent工程则在此基础上进一步发展。我们不再只是要求模型回答一个提示,而是让它规划步骤、选择工具、检查结果、从错误中恢复,并在较少监督的情况下完成多步骤任务。
技术层面虽在不断变化,但 L1 层级的基本关系始终如一:人类定义任务,Agents 负责执行。每次交互仍基本自成一体。任务完成后,会话结束,下一项任务便从头开始。
这一层级已经足够有效,足以改变行为模式。Agents可以在减少人工干预的情况下处理更多执行任务。随着它们变得更经济、更快速、更可靠,产出增加而成本下降。
但更轻松的执行却催生了新的瓶颈。每个并行会话仍需人类来解释任务、提供背景信息、审查输出结果、评估质量,并决定下一步行动。虽然代理在执行工作,但人类仍需负责判断工作成果是否合格。
执行成本降低了,而判断的重要性却提高了。
L2:Agents具备记忆能力
L1 仅解决眼前的任务。L2 则提出了一个不同的问题:Agents能否从这次交互中学习,以便下次表现得更好?
纯粹的 L1 智能体是无状态的。一旦会话结束,上下文便消失。下一个任务将从零开始。L2 智能体通过跨会话积累经验,打破了这一模式。它们会记住用户偏好、项目惯例、反复出现的反馈、先前的决策,以及用户的工作模式。其目标是将人机交互中产生的经验转化为可复用的资产。
这也是为什么不应将 Agents 记忆视为一个更长的提示词或一个保存了对话记录的文件夹。有用的记忆需要基础设施:持久化存储、语义检索、去重、更新,以及一种将过时的上下文与仍有用的知识区分开来的方法。这正是Zilliz的工作与该问题产生关联之处。Milvus及其基于该平台构建的托管服务Zilliz Cloud常被用作智能代理记忆的检索层,因为它们使过去的上下文可搜索,而不仅仅是存档。
但 L2 记忆存在结构性局限。Agents 在此阶段所学的大部分内容都来自可观察的行为:用户说了什么、做了哪些修改、接受了什么、拒绝了什么,或者纠正了什么。Agents 可能记得你重写了一个段落、拒绝了一个实现方案,或者更改了一个函数签名,但它可能并不理解背后的原因。
问题是准确性、语气、可维护性、安全风险、性能、产品定位,还是其他原因?行为是判断的可见表象,而其背后的推理往往隐藏不露。
这使得 L2 在捕捉显性知识方面比隐性知识更胜一筹。它能记住你直接陈述的规则,并存储过去决策的实例。但实例并不会自动转化为原则。Agents可能记住了发生的事情,却不理解其背后的标准。
这一差距催生了L3。
L3:Agents apply standards
一旦 L1 和 L2 开始运作,显而易见的下一步就是并行化。
如果一个Agent能完成一项任务,为什么不运行十个呢?如果一个Agent能从一次会话中学习,为什么不打开多个会话,让它们同时产出成果呢?这就是“10倍工程师”或“100倍工程师”的逻辑:利用Agents来倍增产出。
实际上,并行处理会产生自身的成本。每个会话仍需要人类切换上下文、理解问题、审查工作成果、提供反馈,并决定结果是否足够好。超过一定限度后,更多的Agents不再被视为杠杆,反而会变成额外负担。
这不仅仅是一个工作流程问题,更是一道认知壁垒。人类处理并行任务的方式与机器不同。任务切换会消耗注意力,工作记忆容量有限。每次切换都会增加遗漏细节、应用错误标准或过早批准工作的风险。
一款优秀的产品不应与这一限制对抗,而应围绕这一限制进行设计。
在L3层级,输入内容从“以这种特定方式解决这个具体问题”转变为“以下是你应遵循的标准”。人类不再是指导每个步骤的操作员,而是成为定义规则、约束条件、偏好、质量门槛和决策标准的人。
用户仍可引导智能代理完成特定任务,但这种指导的价值不应随本次会话结束而消失。交互过程应留下可复用的标准,而不仅仅是一份对话记录。下次出现类似任务时,智能代理应直接应用该标准,而无需要求人类重新构建完整上下文并做出相同的判断。
该行业已经朝着这个方向发展。许多Agents产品允许用户定义规则、指令、记忆、项目惯例和行为偏好。方向是正确的,但大多数实现仍处于早期阶段。规则往往是静态文本:需要手动更新、支离破碎,且与用户决策背后的推理仅有松散的联系。
更强大的模型是一种持续更新的个人认知模型:它以机器可读的形式呈现一个人如何进行判断、决策和权衡取舍。该模型应将偏好、价值观、约束条件、例外情况、标准以及决策风格编码为上下文,以便Agents能够检索并应用。
它不应仅仅存储过去的对话,而应让用户的思维对机器变得可读。
用户的职责也随之改变。用户无需再从头解释每一项任务,而是通过完善标准、更新偏好、修正假设以及将隐性判断显性化来维护该模型。从某种意义上说,用户正在持续地将自身“令牌化”:将更多的思维转化为Agents可用的形式。
当执行成本较低时,人类无需在任务开始前就决定每一个实现细节。人类需要定义“理想结果”是什么样子的,什么是不被接受的,以及如何处理权衡取舍。
L4:Agents保留人类的学习成果
前三个级别侧重于让Agents更好地服务于人类。L4则反其道而行之:Agents如何帮助人类变得更好?
这是大多数Agents产品尚未充分面对的部分。当Agents为我们承担更多工作时,人类这一侧的循环中究竟会消失什么?
表面上看,我们省去了手动操作的精力。这是显而易见的好处。但我们可能还会失去三样不太显眼的东西:对工作的情境化记忆、权衡取舍的实践经验,以及通过反复接触杂乱无章的细节所获得的模式识别能力。
我在编程中曾切身体会到这一点。当我自己编写代码时,我会记住每一行代码的位置以及系统的工作原理,因为我曾花时间阅读、调试、追踪并亲手修复它。这个过程不仅产出了代码,还训练了我的大脑去识别结构。
使用Claude Code时,代码依然能被生成,而且往往更快。但过了一段时间后,我对系统的记忆就不那么深刻了。我可能知道系统做什么,但并不总是记得各个部分是如何组合在一起的。构建的体验被压缩了,随之而去的部分学习成果也消失了。
这并非反对使用Agents,而是强调Agents产品需要保留那些能够培养人类判断力的工作环节。
在编程之外也存在同样的模式。如果由智能Agent起草每一份战略备忘录,人类可能会失去构建论点结构的练习机会;如果由智能Agent总结每一篇论文,人类可能会失去察觉摘要遗漏之处的习惯;如果由智能Agent处理每一项操作决策,人类可能会停止培养那种源于处理复杂例外情况的直觉。
工作内容消失了,产出依然存在。但学习循环可能会减弱。
这就是L4问题。
人类判断力是上限
这种损失之所以重要,是因为Agents并非在真空中运作。Agents是效能倍增器,而非替代品。同一工具在专家和初学者手中会产生截然不同的结果。借助Agents,资深工程师的工作效率可能会大幅提升;而初学者可能只是产出更多成果,却未能培养出更好的判断力。
Agents会放大用户现有的认知水平。
这一点至关重要,因为L3依赖于人类定义Agents应遵循的标准。但这些标准的质量取决于人类判断力的质量。如果人类停止进步,这些标准最终会变得过时。它们会变得不完整、肤浅,或者与当前工作的实际情况脱节。
该系统以循环方式运行效果最佳:
- 人类判断定义标准。
- Agents执行任务,这些标准范围包括。
- 执行结果反馈给人类学习。
- 人类的学习优化了标准。
如果这个循环运转良好,双方都会进步。Agents能更有效地执行任务,而人类则能更好地定义“有效”的含义。如果循环中断,系统性能就会下降。人类的判断会停滞不前。标准会变得过时。Agents虽然仍在不断优化,但它们是在一个逐渐落后的框架内进行优化的。
这就是为什么人类判断是上限。更强大的Agents并不会消除对更强大人类的需求。它们反而使人类判断的质量变得更为重要,因为这种判断将成为Agents运作的框架。
为什么Agents无法独自解决整个问题
一种回答显而易见:Agents将不断变得更强大,因此或许它们最终能够自主生成更好的知识、更好的规则和更好的标准。
这种说法确实有其道理。Agents在整合思路、探索解空间以及发掘人类可能未曾考虑过的路径方面,已经表现得非常出色。一个模型可以生成其训练数据中从未出现过的句子、设计和解决方案。它能够跨领域重组模式,并生成有用的替代方案。
这确实具有真实价值。但L4关注的是另一种创造。问题不仅在于谁能找到更好的答案,更在于谁能提出新问题、重写标准,或拓展问题空间。
Agents擅长在现有分布内进行泛化、组合和搜索。它们能在已知领域中找到更好的路径,有时甚至是人类未曾尝试过的路径。但决定是否应重新绘制该领域本身,则是另一回事。
这种决策往往源于人类的背景:现实中的限制、个人利害关系、好奇心、不满,以及犯错的代价。一个人可以提出违反现有框架的假设,并用现实来检验它。更重要的是,当一个想法起初看起来是错误的、冒险的或无用的时,一个人仍可能有理由坚持测试。
非欧几里得几何便是一个有用的例子。 关键的一步并非仅仅是提出“如果两条平行线相交会怎样?”这样的问题——任何Agents都能生成这句话。关键的一步在于将这一奇怪的假设视为值得探究的对象,进而追溯其推论,直至它成为一个新的理论空间。这需要坚持、利害关系,以及关注结果的理由。
玛格丽特·博登(Margaret Boden)的创造力框架在此很有参考价值。她将创造力分为三种类型:
- 组合式创造力:以新方式组合熟悉的想法。
- 探索性创造力:在现有的概念空间内进行探索。
- 变革性创造力:改变概念空间本身的规则。
Agents在前两种模式中已经表现得相当出色。它们能够组合现有想法,并在现有概念空间内进行探索。而第三种模式则更为困难。变革性创造力不仅仅依赖于更快的搜索速度,它更取决于:一个人为何选择拒绝旧规则、接受失败的代价,并持续测试一个尚不契合的构想。
更精确的说法是:Agents最擅长在现有空间内进行组合与探索。新的基础知识、新的问题空间以及新的价值框架,仍然在很大程度上依赖于人类。
设计应着眼于循环过程,而不仅仅是输出结果
并非每款智能Agent产品都需要解决L4级任务。有些产品只需帮助用户更快地完成任务,这完全没问题;其他产品则需要记忆功能、行业标准以及更完善的工作流集成。
但在生态系统层面,有些产品需要维持学习循环。如果每个Agent产品都让人们减少工作量,且没有一款产品能帮助人们在停止直接参与工作后继续学习,那么人类的能力将随着时间推移而减弱。Agent的优化空间将停止扩张。整个系统仍将受限于当今人类判断力的水平。
这正是产品设计至关重要的原因。L4 不仅仅是要求智能代理总结它做了什么。一款有用的 L4 产品,即使在智能代理处理了大部分执行工作的情况下,仍会保留那些能够培养人类判断力的工作环节。
在此有几个关键的产品设计模式:
- 保留关键判断点。某些决策应保持对人类可见,并非因为Agents无法做出这些决策,而是因为这些决策能锻炼判断力。产品应识别哪些时刻至关重要,并确保这些时刻需要用户主动思考。
- 重构过程,而不仅仅是结果。仅提供最终成果是不够的。系统应呈现关键的决策分支、权衡取舍、替代路径以及失败的尝试。仅看到输出结果的用户只能批准或拒绝;而看到推理路径的用户则能更新其心理模型。
- 支持协作探索。当用户感到不确定时,智能代理不应直接给出答案,而应帮助拓展问题空间:哪些维度重要、哪些假设缺失、还需要哪些信息,以及每个选项会带来哪些成本。
- 挑战人类的假设。这并非为了反对而反对,而是指识别用户思维中的漏洞或矛盾,并提出有针对性的问题,使这些矛盾显现出来。
目标并非强迫人类重新执行每个手动步骤——那样将违背Agents的初衷。目标是保留那些将经验转化为判断的工作环节。
Agents产品不应仅以优化产出为目标,还应优化反馈循环:提升人类的判断力、完善标准、优化Agents的执行能力,并促进人类从结果中更好地学习。
当AI Agents 承担工作时,我们不应失去那个最初让人类在工作中变得更出色的反馈循环。
我们很乐意听取您的见解
如果您正在开发智能Agent,我很想听听您的看法:工作的哪些部分应该由智能Agent完全接管,而哪些部分应该保持可见,因为它们有助于人类不断提升能力?
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word



