Home
Blog
当人工智能Agent承担工作时，我们会失去什么？

当人工智能Agent承担工作时，我们会失去什么？

Engineering

June 18, 2026

Bill Chen

智能Agent产品在处理工作方面已经变得非常出色。

Claude Code 能够编写和重构大段代码。Cursor 能帮助开发者更快地浏览代码库。Devin 及其他任务导向型 Agents 则致力于接管更长的工作流程。除了编码之外，Agents 还能起草邮件、处理文档、汇总数据、更新工单，并自动化处理那些过去需要人工直接参与的重复性任务。

这些产品大多都做出相同的承诺：只要给智能代理提供足够的上下文信息，它就会为你处理更多执行工作。这一承诺固然有用，但也引发了一个智能代理产品尚未完全解答的问题：当智能代理承担更多工作时，我们会失去什么？

答案并非仅仅是“人工投入”。任务或许完成了，但人类可能跳过了曾经用于培养判断力的部分过程：阅读、追踪、调试、比较选项、犯错，以及学习为什么一种解决方案优于另一种。

这并不意味着Agents不利于学习。这意味着在设计Agents产品时，必须将学习纳入考量。如果它们仅以输出结果为优化目标，就可能剥夺了那种有助于人类提升Agents所依赖标准的宝贵经验。

思考这一问题的有效方法是借鉴自动驾驶系统中的“自主性阶梯”概念。虽然这种类比并不完美，但有助于区分Agents产品中不同类型的进步：

L1 Agents执行任务。人类下达指令，Agents予以执行。
L2级Agents具备记忆能力。它们通过存储偏好、修正信息和项目背景，在不同会话中进行学习。
L3级Agent应用标准。人类定义规则、约束和决策标准，而非指导每个步骤。
L4级Agent能提升人类能力。它不仅完成工作，还能帮助人类保持并深化判断力。

目前业界仍主要关注前三个级别。这合乎情理。执行、记忆和标准都是亟待解决的产品问题。但L4级别才是长期风险显现之处。如果人类停止进步，指导Agents的标准也将停止进步。

L1：Agents执行

AI 应用开发已经历了多个抽象层级的演变：

起初，开发者通过API调用模型：发送文本，获取文本结果。
随后出现了提示工程，其核心技能在于学习如何提出更好的问题。
随后是上下文工程，其任务在于为模型提供足够的示例、约束条件和背景信息，使其能在特定情境下发挥实际作用。
随后是框架工程：将模型与工具、工作流、文件、数据库、浏览器、终端及生产系统相连接。
Agent工程则在此基础上进一步发展。我们不再只是要求模型回答一个提示，而是让它规划步骤、选择工具、检查结果、从错误中恢复，并在较少监督的情况下完成多步骤任务。

技术层面虽在不断变化，但 L1 层级的基本关系始终如一：人类定义任务，Agents 负责执行。每次交互仍基本自成一体。任务完成后，会话结束，下一项任务便从头开始。

这一层级已经足够有效，足以改变行为模式。Agents可以在减少人工干预的情况下处理更多执行任务。随着它们变得更经济、更快速、更可靠，产出增加而成本下降。

但更轻松的执行却催生了新的瓶颈。每个并行会话仍需人类来解释任务、提供背景信息、审查输出结果、评估质量，并决定下一步行动。虽然代理在执行工作，但人类仍需负责判断工作成果是否合格。

执行成本降低了，而判断的重要性却提高了。

L2：Agents具备记忆能力

L1 仅解决眼前的任务。L2 则提出了一个不同的问题：Agents能否从这次交互中学习，以便下次表现得更好？

纯粹的 L1 智能体是无状态的。一旦会话结束，上下文便消失。下一个任务将从零开始。L2 智能体通过跨会话积累经验，打破了这一模式。它们会记住用户偏好、项目惯例、反复出现的反馈、先前的决策，以及用户的工作模式。其目标是将人机交互中产生的经验转化为可复用的资产。

这也是为什么不应将 Agents 记忆视为一个更长的提示词或一个保存了对话记录的文件夹。有用的记忆需要基础设施：持久化存储、语义检索、去重、更新，以及一种将过时的上下文与仍有用的知识区分开来的方法。这正是Zilliz的工作与该问题产生关联之处。Milvus及其基于该平台构建的托管服务Zilliz Cloud常被用作智能代理记忆的检索层，因为它们使过去的上下文可搜索，而不仅仅是存档。

但 L2 记忆存在结构性局限。Agents 在此阶段所学的大部分内容都来自可观察的行为：用户说了什么、做了哪些修改、接受了什么、拒绝了什么，或者纠正了什么。Agents 可能记得你重写了一个段落、拒绝了一个实现方案，或者更改了一个函数签名，但它可能并不理解背后的原因。

问题是准确性、语气、可维护性、安全风险、性能、产品定位，还是其他原因？行为是判断的可见表象，而其背后的推理往往隐藏不露。

这使得 L2 在捕捉显性知识方面比隐性知识更胜一筹。它能记住你直接陈述的规则，并存储过去决策的实例。但实例并不会自动转化为原则。Agents可能记住了发生的事情，却不理解其背后的标准。

这一差距催生了L3。

L3：Agents apply standards

一旦 L1 和 L2 开始运作，显而易见的下一步就是并行化。

如果一个Agent能完成一项任务，为什么不运行十个呢？如果一个Agent能从一次会话中学习，为什么不打开多个会话，让它们同时产出成果呢？这就是“10倍工程师”或“100倍工程师”的逻辑：利用Agents来倍增产出。

实际上，并行处理会产生自身的成本。每个会话仍需要人类切换上下文、理解问题、审查工作成果、提供反馈，并决定结果是否足够好。超过一定限度后，更多的Agents不再被视为杠杆，反而会变成额外负担。

这不仅仅是一个工作流程问题，更是一道认知壁垒。人类处理并行任务的方式与机器不同。任务切换会消耗注意力，工作记忆容量有限。每次切换都会增加遗漏细节、应用错误标准或过早批准工作的风险。

一款优秀的产品不应与这一限制对抗，而应围绕这一限制进行设计。

在L3层级，输入内容从“以这种特定方式解决这个具体问题”转变为“以下是你应遵循的标准”。人类不再是指导每个步骤的操作员，而是成为定义规则、约束条件、偏好、质量门槛和决策标准的人。

用户仍可引导智能代理完成特定任务，但这种指导的价值不应随本次会话结束而消失。交互过程应留下可复用的标准，而不仅仅是一份对话记录。下次出现类似任务时，智能代理应直接应用该标准，而无需要求人类重新构建完整上下文并做出相同的判断。

该行业已经朝着这个方向发展。许多Agents产品允许用户定义规则、指令、记忆、项目惯例和行为偏好。方向是正确的，但大多数实现仍处于早期阶段。规则往往是静态文本：需要手动更新、支离破碎，且与用户决策背后的推理仅有松散的联系。

更强大的模型是一种持续更新的个人认知模型：它以机器可读的形式呈现一个人如何进行判断、决策和权衡取舍。该模型应将偏好、价值观、约束条件、例外情况、标准以及决策风格编码为上下文，以便Agents能够检索并应用。

它不应仅仅存储过去的对话，而应让用户的思维对机器变得可读。

用户的职责也随之改变。用户无需再从头解释每一项任务，而是通过完善标准、更新偏好、修正假设以及将隐性判断显性化来维护该模型。从某种意义上说，用户正在持续地将自身“令牌化”：将更多的思维转化为Agents可用的形式。

当执行成本较低时，人类无需在任务开始前就决定每一个实现细节。人类需要定义“理想结果”是什么样子的，什么是不被接受的，以及如何处理权衡取舍。

L4：Agents保留人类的学习成果

前三个级别侧重于让Agents更好地服务于人类。L4则反其道而行之：Agents如何帮助人类变得更好？

这是大多数Agents产品尚未充分面对的部分。当Agents为我们承担更多工作时，人类这一侧的循环中究竟会消失什么？

表面上看，我们省去了手动操作的精力。这是显而易见的好处。但我们可能还会失去三样不太显眼的东西：对工作的情境化记忆、权衡取舍的实践经验，以及通过反复接触杂乱无章的细节所获得的模式识别能力。

我在编程中曾切身体会到这一点。当我自己编写代码时，我会记住每一行代码的位置以及系统的工作原理，因为我曾花时间阅读、调试、追踪并亲手修复它。这个过程不仅产出了代码，还训练了我的大脑去识别结构。

使用Claude Code时，代码依然能被生成，而且往往更快。但过了一段时间后，我对系统的记忆就不那么深刻了。我可能知道系统做什么，但并不总是记得各个部分是如何组合在一起的。构建的体验被压缩了，随之而去的部分学习成果也消失了。

这并非反对使用Agents，而是强调Agents产品需要保留那些能够培养人类判断力的工作环节。

在编程之外也存在同样的模式。如果由智能Agent起草每一份战略备忘录，人类可能会失去构建论点结构的练习机会；如果由智能Agent总结每一篇论文，人类可能会失去察觉摘要遗漏之处的习惯；如果由智能Agent处理每一项操作决策，人类可能会停止培养那种源于处理复杂例外情况的直觉。

工作内容消失了，产出依然存在。但学习循环可能会减弱。

这就是L4问题。

人类判断力是上限

这种损失之所以重要，是因为Agents并非在真空中运作。Agents是效能倍增器，而非替代品。同一工具在专家和初学者手中会产生截然不同的结果。借助Agents，资深工程师的工作效率可能会大幅提升；而初学者可能只是产出更多成果，却未能培养出更好的判断力。

Agents会放大用户现有的认知水平。

这一点至关重要，因为L3依赖于人类定义Agents应遵循的标准。但这些标准的质量取决于人类判断力的质量。如果人类停止进步，这些标准最终会变得过时。它们会变得不完整、肤浅，或者与当前工作的实际情况脱节。

该系统以循环方式运行效果最佳：

人类判断定义标准。
Agents执行任务，这些标准范围包括。
执行结果反馈给人类学习。
人类的学习优化了标准。

如果这个循环运转良好，双方都会进步。Agents能更有效地执行任务，而人类则能更好地定义“有效”的含义。如果循环中断，系统性能就会下降。人类的判断会停滞不前。标准会变得过时。Agents虽然仍在不断优化，但它们是在一个逐渐落后的框架内进行优化的。

这就是为什么人类判断是上限。更强大的Agents并不会消除对更强大人类的需求。它们反而使人类判断的质量变得更为重要，因为这种判断将成为Agents运作的框架。

为什么Agents无法独自解决整个问题

一种回答显而易见：Agents将不断变得更强大，因此或许它们最终能够自主生成更好的知识、更好的规则和更好的标准。

这种说法确实有其道理。Agents在整合思路、探索解空间以及发掘人类可能未曾考虑过的路径方面，已经表现得非常出色。一个模型可以生成其训练数据中从未出现过的句子、设计和解决方案。它能够跨领域重组模式，并生成有用的替代方案。

这确实具有真实价值。但L4关注的是另一种创造。问题不仅在于谁能找到更好的答案，更在于谁能提出新问题、重写标准，或拓展问题空间。

Agents擅长在现有分布内进行泛化、组合和搜索。它们能在已知领域中找到更好的路径，有时甚至是人类未曾尝试过的路径。但决定是否应重新绘制该领域本身，则是另一回事。

这种决策往往源于人类的背景：现实中的限制、个人利害关系、好奇心、不满，以及犯错的代价。一个人可以提出违反现有框架的假设，并用现实来检验它。更重要的是，当一个想法起初看起来是错误的、冒险的或无用的时，一个人仍可能有理由坚持测试。

非欧几里得几何便是一个有用的例子。关键的一步并非仅仅是提出“如果两条平行线相交会怎样？”这样的问题——任何Agents都能生成这句话。关键的一步在于将这一奇怪的假设视为值得探究的对象，进而追溯其推论，直至它成为一个新的理论空间。这需要坚持、利害关系，以及关注结果的理由。

玛格丽特·博登（Margaret Boden）的创造力框架在此很有参考价值。她将创造力分为三种类型：

组合式创造力：以新方式组合熟悉的想法。
探索性创造力：在现有的概念空间内进行探索。
变革性创造力：改变概念空间本身的规则。

Agents在前两种模式中已经表现得相当出色。它们能够组合现有想法，并在现有概念空间内进行探索。而第三种模式则更为困难。变革性创造力不仅仅依赖于更快的搜索速度，它更取决于：一个人为何选择拒绝旧规则、接受失败的代价，并持续测试一个尚不契合的构想。

更精确的说法是：Agents最擅长在现有空间内进行组合与探索。新的基础知识、新的问题空间以及新的价值框架，仍然在很大程度上依赖于人类。

设计应着眼于循环过程，而不仅仅是输出结果

并非每款智能Agent产品都需要解决L4级任务。有些产品只需帮助用户更快地完成任务，这完全没问题；其他产品则需要记忆功能、行业标准以及更完善的工作流集成。

但在生态系统层面，有些产品需要维持学习循环。如果每个Agent产品都让人们减少工作量，且没有一款产品能帮助人们在停止直接参与工作后继续学习，那么人类的能力将随着时间推移而减弱。Agent的优化空间将停止扩张。整个系统仍将受限于当今人类判断力的水平。

这正是产品设计至关重要的原因。L4 不仅仅是要求智能代理总结它做了什么。一款有用的 L4 产品，即使在智能代理处理了大部分执行工作的情况下，仍会保留那些能够培养人类判断力的工作环节。

在此有几个关键的产品设计模式：

保留关键判断点。某些决策应保持对人类可见，并非因为Agents无法做出这些决策，而是因为这些决策能锻炼判断力。产品应识别哪些时刻至关重要，并确保这些时刻需要用户主动思考。
重构过程，而不仅仅是结果。仅提供最终成果是不够的。系统应呈现关键的决策分支、权衡取舍、替代路径以及失败的尝试。仅看到输出结果的用户只能批准或拒绝；而看到推理路径的用户则能更新其心理模型。
支持协作探索。当用户感到不确定时，智能代理不应直接给出答案，而应帮助拓展问题空间：哪些维度重要、哪些假设缺失、还需要哪些信息，以及每个选项会带来哪些成本。
挑战人类的假设。这并非为了反对而反对，而是指识别用户思维中的漏洞或矛盾，并提出有针对性的问题，使这些矛盾显现出来。

目标并非强迫人类重新执行每个手动步骤——那样将违背Agents的初衷。目标是保留那些将经验转化为判断的工作环节。

Agents产品不应仅以优化产出为目标，还应优化反馈循环：提升人类的判断力、完善标准、优化Agents的执行能力，并促进人类从结果中更好地学习。

当AI Agents 承担工作时，我们不应失去那个最初让人类在工作中变得更出色的反馈循环。