Home
Blog
當人工智慧代理負責工作時，我們會失去什麼？

當人工智慧代理負責工作時，我們會失去什麼？

Engineering

June 18, 2026

Bill Chen

代理程式產品在處理工作方面已變得非常出色。

Claude Code 能夠編寫並重構大段程式碼；Cursor 則能協助開發者更快速地瀏覽程式碼庫；Devin 及其他以任務為導向的代理程式，則試圖接管更長的工作流程。除了編碼之外，這些代理程式還能起草電子郵件、處理文件、彙整數據、更新工單，並將過去需要人工直接處理的重複性任務自動化。

這些產品大多都做出相同的承諾：只要提供足夠的背景資訊，代理程式就會為您處理更多執行工作。這項承諾固然有用，但也引發了一個代理程式產品尚未完全解答的問題：當代理程式承擔更多工作時，我們會失去什麼？

答案並非單純地「人工投入」。任務或許完成了，但人類可能跳過了過去用來培養判斷力的部分流程：閱讀、追蹤、除錯、比較選項、犯錯，以及學習為何某個解決方案比另一個更好。

這並非意味著代理程式不利於學習，而是表示代理產品在設計時必須將學習納入考量。若僅以輸出結果為優化目標，它們可能會剝奪人類那段有助於提升代理程式所依賴標準的寶貴經驗。

思考這個問題的一個有用方法，是借鑒自動駕駛系統中的「自主性階梯」。雖然這個類比並非完美，但有助於區分代理產品中不同類型的進展：

L1 代理僅執行任務。人類下達指令，代理則予以執行。
L2 代理具備記憶能力。它們透過儲存偏好、修正與專案背景，在不同使用情境間進行學習。
L3 級代理會應用標準。人類定義規則、限制條件與決策準則，而非指導每個步驟。
L4 級代理能提升人類能力。代理不僅僅是執行工作，更協助人類維持並深化判斷力。

業界目前仍主要聚焦於前三個層級。這合乎情理，因為執行、記憶與標準都是當前亟待解決的產品問題。但長期風險正出現在 L4 層級。若人類停止進步，引導代理的標準也將停止進步。

L1：代理執行

AI 應用程式的開發歷經了數個抽象層級的演進：

起初，開發者透過 API 調用模型：傳送文字，獲取文字回傳。
隨後出現了提示工程（prompt engineering），其核心技能在於學習如何提出更好的問題。
隨後是情境工程，其任務在於為模型提供足夠的範例、限制條件和背景資訊，使其能在特定情境下發揮實用功能。
接著是「框架工程」：將模型與工具、工作流程、檔案、資料庫、瀏覽器、終端機及生產系統進行整合。
代理工程則在此基礎上進一步發展。我們不再只是要求模型回答單一提示，而是要求它規劃步驟、選擇工具、檢視結果、從錯誤中恢復，並在較少監督的情況下完成多步驟任務。

技術層面雖不斷變化，但 L1 層級的基本關係始終如一：人類定義任務，代理則負責執行。每次互動仍大多自成一體。任務完成後，會話即告結束，下一項任務則從頭開始。

此層級的運作已足夠完善，足以改變行為模式。代理程式能以更少的 manual effort 處理更多執行工作。隨著它們變得更便宜、更快且更可靠，產出量隨之提升，成本則相應降低。

然而，更輕鬆的執行卻造就了新的瓶頸。每個並行會話仍需人類來闡明任務、提供背景資訊、審查產出、評估品質，並決定後續行動。代理程式或許在執行工作，但人類仍須負責判斷工作成果是否合格。

執行成本降低。判斷的重要性則隨之提升。

L2：代理程式會記住

L1 專注於解決眼前的任務。L2 則提出不同的問題：代理能否從這次互動中學習，讓下一次表現得更好？

純粹的 L1 代理是無狀態的。一旦會話結束，上下文便會消失。下一項任務將從頭開始。L2 代理則透過跨會話累積經驗來打破這種模式。它們會記住用戶偏好、專案慣例、反覆出現的回饋、先前的決策，以及用戶的工作模式。目標是將人機互動所產生的經驗轉化為可重複使用的資產。

這也是為何不應將代理記憶體視為較長的提示詞或儲存對話紀錄的資料夾。有用的記憶體需要基礎架構：持久儲存、語義檢索、去重、更新，以及區分過時情境與仍具實用價值知識的方法。這正是Zilliz的工作與此問題的連結之處。Milvus 及其基於該平台建構的託管服務 Zilliz Cloud，常被用作代理記憶體的檢索層，因為它們能讓過往的上下文可被檢索，而非僅僅被歸檔。

但 L2 記憶體存在結構性限制。代理程式在此階段所學習的內容，大多來自可觀察的行為：使用者所說的話、所做的變更、所接受或拒絕的內容，以及所修正之處。代理程式可能會記住您重寫了一段文字、拒絕某個實作方案，或是更改了函式簽名，但未必能理解箇中原因。

問題出在準確性、語氣、可維護性、安全風險、效能、產品定位，還是其他因素？行為是判斷的可見表象，而其背後的推理往往隱而不顯。

這使得 L2 在捕捉顯性知識方面比隱性知識更為擅長。它能記住你直接闡述的規則，並儲存過往決策的範例。但範例並不會自動轉化為原則。代理程式可能記住發生過什麼事，卻不理解背後所依據的標準。

這道鴻溝便引出了 L3。

L3：代理應用標準

一旦 L1 和 L2 開始運作，顯而易見的下一步便是並行處理。

如果一個代理能完成一項任務，為何不運行十個？如果一個代理能從一次會話中學習，為何不開啟多個會話，讓它們同時產出成果？這就是「10x 工程師」或「100x 工程師」的邏輯：利用代理來倍增產出。

實際上，並行處理會產生其自身的成本。每個工作階段仍需要人類切換上下文、理解問題、審查成果、給予回饋，並決定結果是否足夠理想。一旦超過某個臨界點，更多的代理就不再感覺像是槓桿效應，反而開始感覺像是額外負擔。

這不僅僅是工作流程的問題，更是一道認知壁壘。人類處理並行任務的方式與機器截然不同。任務切換會消耗注意力，工作記憶更是有限。每次切換都會增加忽略細節、套用錯誤標準，或是過早批准成果的風險。

一款優秀的產品不應與此限制對抗，而應以此為基礎進行設計。

在 L3 層級，輸入內容從「以這種特定方式解決這個特定問題」轉變為「以下是你應遵循的標準」。人類不再是引導每個步驟的操作者，而是成為定義規則、限制條件、偏好、品質門檻及決策標準的人。

使用者或許仍會引導代理程式完成特定任務，但這份指導的價值不應隨著當次會話而消失。互動應留下可重複使用的標準，而不僅是對話紀錄。下次出現類似任務時，代理程式應直接套用該標準，無需要求人類重新建構完整脈絡並再次做出相同判斷。

業界已經朝這個方向發展。許多代理產品允許使用者定義規則、指示、記憶、專案慣例以及行為偏好。方向是正確的，但大多數的實作仍處於早期階段。規則往往是靜態的文字：需手動更新、零散分散，且與使用者決策背後的推理僅有鬆散的關聯。

更強大的模式是一種持續更新的個人認知模型：這是對一個人如何判斷、決策及權衡取捨的機器可讀表示。它應將偏好、價值觀、限制條件、例外情況、標準及決策風格編碼為情境，供代理程式檢索並應用。

它不應僅是儲存過往對話，更應讓使用者的思考過程對機器而言清晰可讀。

用戶的任務也隨之改變。用戶無需從頭開始解釋每項任務，而是透過精煉標準、更新偏好、修正假設，以及將隱含的判斷顯性化，來維護該模型。某種程度上，用戶正在持續將自身「標記化」：將更多思考內容轉化為代理程式可用的形式。

當執行成本低廉時，人類無需在任務開始前就決定每個實作細節。人類需要定義何謂「理想結果」、何謂「不可接受」，以及應如何處理權衡取捨。

L4：代理程式保存人類的學習成果

前三個層級著重於讓代理更好地服務人類。L4 則顛倒了這個問題：代理如何幫助人類變得更好？

這是多數代理產品尚未充分面對的部分。當代理為我們承擔更多工作時，人類在這個迴路中究竟會失去什麼？

表面上，我們省去了手動操作的勞力，這是顯而易見的好處。但我們也可能失去三項較不顯眼的東西：對工作的情境記憶、權衡取捨的實踐經驗，以及透過反覆接觸雜亂細節所培養出的模式辨識能力。

我在編碼時曾親身感受到這一點。當我親自撰寫程式碼時，我會記住每一行程式碼的位置以及系統的運作方式，因為我曾花時間閱讀、除錯、追蹤並親手修正它。這個過程不僅僅是產出程式碼，更訓練了我的大腦去辨識結構。

使用 Claude Code 時，程式碼依然會被產出，而且往往更快。但過了一段時間後，我對系統的記憶就沒那麼深刻了。我或許知道系統的功能，卻不總能記得每個部分是如何組合在一起的。建構的經驗被壓縮了，而部分學習成果也隨之消失。

這並非反對編碼代理的論點，而是主張代理產品必須保留那些能培養人類判斷力的工作環節。

這種模式在編碼之外同樣存在。如果由智能代理起草每份策略備忘錄，人類可能會失去組織論點的練習機會；如果由智能代理彙整每篇論文，人類可能會失去察覺摘要遺漏之處的習慣；如果由智能代理處理每項營運決策，人類可能會停止培養那種來自處理混亂例外情況的直覺。

工作過程消失了，產出卻依然存在。但學習迴路可能會因此弱化。

這就是 L4 問題。

人類判斷力是上限

這種損失之所以重要，是因為代理程式並非在真空中運作。代理程式是倍增器，而非替代品。同一項工具在專家與初學者手中，所產生的結果截然不同。一位使用代理程式的資深工程師，效率可能會大幅提升；而初學者則可能只是產出更多成果，卻未能培養出更好的判斷力。

代理系統會放大使用者現有的認知水平。

這點至關重要，因為 L3 層級仰賴人類來定義代理程式應遵循的標準。但這些標準的品質，取決於人類判斷力的水準。若人類停止進步，這些標準終將過時。它們會變得不完整、膚淺，或與當前工作的實際狀況脫節。

該系統的最佳運作模式是形成一個循環：

人類判斷定義標準。
代理程式在這些標準下執行任務。
執行結果反饋至人類學習。
人類的學習則能改進這些標準。

若此循環運作良好，雙方皆能進步：代理程式能更有效地執行任務，而人類則更擅長定義何謂「有效」。若循環中斷，系統效能便會退化。人類判斷力將停滯不前，標準亦會過時。代理程式雖持續優化，卻是在一個逐漸落後的框架內進行優化。

這就是為什麼人類判斷是上限。更強大的代理並不會消除對更強大人類的需求。它們反而使人類判斷的品質更加重要，因為這種判斷將成為代理運作的框架。

為何代理程式無法單憑一己之力解決整個問題

其中一個答案顯而易見：代理會持續變強，因此或許終有一天，它們能自行產生更優質的知識、更完善的規則，以及更精準的標準。

這話不無道理。代理系統在整合想法、探索解空間，以及發掘人類可能未曾考慮過的途徑方面，已經相當強大。一個模型可以產生從未出現在其訓練資料中的句子、設計和解決方案。它能夠跨領域重新組合模式，並產生有用的替代方案。

這確實是真正的價值。但 L4 關注的卻是另一種創造。問題不僅在於誰能找到更好的答案，更在於誰能提出新問題、重寫標準，或是擴展問題空間。

智能代理在現有分佈中擅長概括、整合與搜尋。牠們能在已知領域中找到更好的路徑，有時甚至是人類未曾嘗試過的路徑。但決定是否應重新繪製這片領域本身，則是另一回事。

這類決策往往源自人類的處境：生活中的限制、個人利害關係、好奇心、不滿，以及犯錯的代價。一個人可以提出違反現行框架的假說，並用現實來驗證它。更重要的是，當一個想法乍看之下似乎錯誤、冒險或無用時，人仍能有理由持續進行測試。

非歐幾里得幾何學便是個有用的例子。關鍵的一步並非僅僅提出「如果平行線相交會怎樣？」這樣的疑問——任何主體都能提出這句話。關鍵的一步在於將這個奇怪的假設視為值得探究的對象，並追蹤其推論，直到它成為一個新的理論空間。這需要堅持、利害關係，以及關心結果的理由。

瑪格麗特·博登（Margaret Boden）的創造力框架在此頗具參考價值。她將創造力區分為三種類型：

組合式創造力：以嶄新方式組合熟悉的觀念。
探索性創造力：在現有的概念空間內進行探索。
轉化式創造力：改變概念空間本身的規則。

智能體在前兩種模式上已相當強大。它們能組合現有想法，並在現有的概念空間內進行探索。第三種模式則更具挑戰性。轉化型創造力不僅取決於更快的搜尋速度，更取決於某人為何選擇拒絕舊規則、承擔失敗的代價，並持續測試一個尚未契合的構想。

更精確的論點是：智能體最擅長在現有空間中進行組合與探索。新的基礎知識、新的問題空間以及新的價值框架，仍高度依賴人類。

設計應著眼於「迴圈」，而不僅是「輸出」

並非每款智能代理產品都需要解決 L4 級別的問題。有些產品只需協助使用者更快完成任務，這已足夠；另一些則需要記憶功能、標準規範，以及更完善的流程整合。

但在生態系統層面上，某些產品需要維持學習迴圈。如果每款智能代理產品都讓人們減少工作量，卻沒有任何一款能幫助人們在停止直接執行工作後持續學習，人類的能力將隨時間推移而衰退。智能代理的優化空間將停止擴展。整個系統仍將受限於當今人類判斷力的水平。

這正是產品設計至關重要的地方。L4 並非僅要求代理程式總結其執行過的事項。一款有用的 L4 產品，即使代理程式處理了大部分的執行工作，仍會保留那些能培養人類判斷力的工作環節。

在此有幾個關鍵的產品設計模式：

保留關鍵判斷點。某些決策應保持對人類可見，並非因為代理無法做出這些決策，而是因為這些決策能鍛鍊判斷力。產品應識別哪些時刻至關重要，並確保這些時刻仍需經由人類刻意思考。
重構過程，而不僅是結果。僅有最終產出物是不夠的。系統應呈現關鍵的決策分支、權衡取捨、替代路徑以及失敗的嘗試。僅看到輸出結果的使用者只能批准或拒絕；而能看到推理路徑的使用者，則能更新其心智模型。
支持協作式探索。當使用者感到不確定時，代理程式不應直接跳到答案，而應協助擴展問題空間：哪些維度重要、哪些假設尚不完整、還需要哪些資訊，以及每個選項會帶來哪些成本。
挑戰人類的假設。這並非為了反對而反對，而是指察覺使用者思考中的缺口或矛盾，並提出針對性的問題，使這些矛盾顯現出來。

目標並非強迫人類回歸每個手動步驟，那將背離代理系統的初衷。真正的目標是保留那些能將經驗轉化為判斷的工作環節。

代理產品不應僅以輸出結果為優化目標，更應優化反饋迴路：提升人類判斷力、完善標準、優化代理執行效能，並促進人類從結果中學習。

當 AI 代理執行工作時，我們不應失去那個原本使人類在該工作上更臻完美的反饋迴路。