Home
Blog
Cuando los agentes de IA se encargan del trabajo, ¿qué perdemos?

Cuando los agentes de IA se encargan del trabajo, ¿qué perdemos?

Engineering

June 18, 2026

Bill Chen

Los productos basados en agentes están mejorando mucho en el desempeño de sus tareas.

Claude Code puede escribir y refactorizar grandes bloques de código. Cursor ayuda a los desarrolladores a moverse más rápido por los códigos fuente. Devin y otros agentes orientados a tareas intentan hacerse cargo de flujos de trabajo más largos. Más allá de la programación, los agentes redactan correos electrónicos, procesan documentos, resumen datos, actualizan tickets y automatizan tareas repetitivas que antes requerían la intervención directa de una persona.

La mayoría de estos productos hacen la misma promesa: si le das al agente suficiente contexto, se encargará de una mayor parte de la ejecución por ti. Esa promesa es útil, pero también plantea una pregunta que los productos de agentes aún no han respondido del todo: cuando el agente hace más trabajo, ¿qué perdemos?

La respuesta no es simplemente «esfuerzo manual». La tarea puede completarse, pero es posible que el ser humano se haya saltado parte del proceso que solía desarrollar su capacidad de juicio: leer, rastrear, depurar, comparar opciones, cometer errores y aprender por qué una solución es mejor que otra.

Esto no significa que los agentes sean perjudiciales para el aprendizaje. Significa que los productos basados en agentes deben diseñarse teniendo en cuenta el aprendizaje. Si solo se optimizan para el resultado, pueden eliminar precisamente la experiencia que ayuda a los humanos a mejorar los estándares de los que dependen los agentes.

Una forma útil de abordar este problema es tomar prestada la «escalera de autonomía» de los sistemas de conducción autónoma. La analogía no es perfecta, pero ayuda a distinguir los diferentes tipos de progreso en los productos basados en agentes:

Los agentes de nivel 1 ejecutan tareas. El ser humano da instrucciones y el agente las lleva a cabo.
Los agentes de nivel 2 recuerdan. Aprenden a lo largo de las sesiones almacenando preferencias, correcciones y el contexto del proyecto.
Los agentes de nivel 3 aplican estándares. El ser humano define reglas, restricciones y criterios de decisión en lugar de guiar cada paso.
Los agentes de nivel 4 mejoran al ser humano. El agente no se limita a hacer el trabajo. Ayuda al ser humano a preservar y profundizar su capacidad de juicio.

La mayor parte del sector sigue centrada en los tres primeros niveles. Es lógico. La ejecución, la memoria y los estándares son problemas inmediatos del producto. Pero es en el nivel L4 donde surge el riesgo a largo plazo. Si los humanos dejan de mejorar, los estándares que guían a los agentes también dejan de mejorar.

Nivel 1: Los agentes ejecutan

El desarrollo de aplicaciones de IA ha pasado por varias capas de abstracción:

Al principio, los desarrolladores invocaban un modelo a través de una API: enviaban texto y recibían texto a cambio.
Luego llegó la ingeniería de prompts, donde la habilidad principal consistía en aprender a formular mejores preguntas.
Después llegó la ingeniería de contexto, en la que la tarea consistía en proporcionar al modelo suficientes ejemplos, restricciones y antecedentes para que se comportara de forma útil en una situación concreta.
Después llegó la ingeniería de harness: conectar los modelos a herramientas, flujos de trabajo, archivos, bases de datos, navegadores, terminales y sistemas de producción.
La ingeniería de agentes se basa en todo ello. En lugar de pedirle al modelo que responda a una sola indicación, le pedimos que planifique pasos, elija herramientas, inspeccione resultados, se recupere de errores y complete tareas de varios pasos con menos supervisión.

La superficie técnica sigue cambiando, pero la relación básica en el nivel 1 sigue siendo la misma: el ser humano define la tarea y el agente la lleva a cabo. Cada interacción sigue siendo, en su mayor parte, autónoma. La tarea se completa, la sesión termina y la siguiente tarea comienza desde cero.

Este nivel ya funciona lo suficientemente bien como para modificar el comportamiento. Los agentes pueden gestionar más tareas con menos esfuerzo manual. A medida que se vuelven más económicos, rápidos y fiables, el rendimiento aumenta mientras que el coste disminuye.

Pero una ejecución más sencilla crea un nuevo cuello de botella. Cada sesión paralela sigue necesitando a una persona que explique la tarea, proporcione contexto, revise el resultado, evalúe la calidad y decida qué hacer a continuación. Puede que el agente realice el trabajo, pero la persona sigue siendo responsable de determinar si el trabajo es adecuado.

La ejecución se abarata. El criterio cobra mayor importancia.

Nivel 2: Los agentes recuerdan

El L1 resuelve la tarea que tiene ante sí. El L2 plantea una pregunta diferente: ¿puede el agente aprender de esta interacción para que la siguiente salga mejor?

Un agente L1 puro carece de estado. Una vez que finaliza la sesión, el contexto desaparece. La siguiente tarea empieza desde cero. Los agentes L2 rompen ese patrón al acumular experiencia a lo largo de las sesiones. Recuerdan las preferencias del usuario, las convenciones del proyecto, los comentarios recurrentes, las decisiones anteriores y los patrones en la forma de trabajar del usuario. El objetivo es convertir la experiencia generada a través de la interacción entre humanos y agentes en un activo reutilizable.

Por eso mismo, la memoria del agente no debe tratarse como una indicación más larga o una carpeta de transcripciones guardadas. Una memoria útil necesita infraestructura: almacenamiento duradero, recuperación semántica, deduplicación, actualizaciones y una forma de separar el contexto obsoleto del conocimiento que sigue siendo útil. Aquí es donde nuestro trabajo en Zilliz se relaciona con el problema. Milvus, y los servicios gestionados de Zilliz Cloud construidos en torno a él, se utilizan a menudo como capa de recuperación para la memoria del agente, ya que permiten buscar en el contexto pasado en lugar de limitarse a archivarlo.

Pero la memoria de nivel 2 tiene un límite estructural. La mayor parte de lo que los agentes aprenden en esta etapa proviene del comportamiento observable: lo que el usuario dijo, cambió, aceptó, rechazó o corrigió. Un agente puede recordar que reescribiste un párrafo, rechazaste una implementación o cambiaste la firma de una función. Pero puede que no entienda por qué.

¿El problema era la precisión, el tono, la facilidad de mantenimiento, el riesgo de seguridad, el rendimiento, el posicionamiento del producto o algo más? El comportamiento es la superficie visible del juicio. El razonamiento subyacente suele permanecer oculto.

Eso hace que el Nivel 2 sea mejor a la hora de captar el conocimiento explícito que el tácito. Puede recordar las reglas que has establecido directamente y almacenar ejemplos de decisiones pasadas. Pero los ejemplos no se convierten automáticamente en principios. El agente puede recordar lo que ocurrió sin comprender la norma que hay detrás.

Esa brecha nos lleva al nivel L3.

Nivel 3: Los agentes aplican normas

Una vez que L1 y L2 empiezan a funcionar, el siguiente paso obvio es el paralelismo.

Si un agente puede completar una tarea, ¿por qué no poner en marcha diez? Si un agente puede aprender de una sesión, ¿por qué no abrir muchas sesiones y dejar que todos produzcan trabajo a la vez? Esta es la lógica del «ingeniero 10x» o del «ingeniero 100x»: utilizar agentes para multiplicar el rendimiento.

En la práctica, el paralelismo genera su propio coste. Cada sesión sigue exigiendo que la persona cambie de contexto, comprenda el problema, revise el trabajo, dé su opinión y decida si el resultado es lo suficientemente bueno. A partir de cierto punto, un mayor número de agentes deja de parecer una ventaja y empieza a parecer una carga.

No se trata solo de un problema de flujo de trabajo. Es una barrera cognitiva. Los seres humanos no gestionan las tareas en paralelo como lo hacen las máquinas. Cambiar de tarea agota la atención. La memoria de trabajo es limitada. Cada cambio aumenta la probabilidad de pasar por alto detalles, aplicar un criterio erróneo o aprobar el trabajo con demasiada rapidez.

Un buen producto no debe luchar contra este límite. Debe diseñarse teniendo en cuenta este límite.

En el nivel 3, la indicación pasa de ser «resuelve este problema concreto de esta forma concreta» a «estas son las normas que debes aplicar». El ser humano deja de ser el operador que guía cada paso y se convierte en la persona que define las reglas, las restricciones, las preferencias, los umbrales de calidad y los criterios de decisión.

Un usuario aún puede guiar a un agente a través de una tarea específica, pero el valor de esa orientación no debería desaparecer al finalizar la sesión. La interacción debería dejar como legado un estándar reutilizable, no solo un registro de la conversación. La próxima vez que surja una tarea similar, el agente debería aplicar el estándar sin pedirle a la persona que reconstruya todo el contexto y vuelva a emitir el mismo juicio.

El sector ya se está moviendo en esta dirección. Muchos productos de agentes permiten a los usuarios definir reglas, instrucciones, recuerdos, convenciones de proyecto y preferencias de comportamiento. La dirección es la correcta, pero la mayoría de las implementaciones aún se encuentran en una fase inicial. Las reglas suelen ser texto estático: actualizadas manualmente, fragmentadas y conectadas solo de forma imprecisa con el razonamiento que subyace a las decisiones del usuario.

El modelo más sólido es un modelo cognitivo personal que se actualiza continuamente: una representación legible por máquina de cómo una persona juzga, decide y establece compensaciones. Debería codificar preferencias, valores, restricciones, excepciones, normas y estilo de decisión como contexto que los agentes puedan recuperar y aplicar.

En lugar de limitarse a almacenar conversaciones pasadas, debería hacer que el pensamiento del usuario resulte legible para las máquinas.

La función del usuario cambia en consecuencia. En lugar de explicar cada tarea desde cero, el usuario mantiene el modelo perfeccionando los estándares, actualizando las preferencias, corrigiendo supuestos y haciendo explícito el juicio implícito. En cierto sentido, el usuario se está «tokenizando» continuamente: convirtiendo una mayor parte de su pensamiento en una forma que los agentes puedan utilizar.

Cuando la ejecución es económica, el ser humano no necesita decidir cada detalle de la implementación antes de que comience una tarea. El ser humano debe definir qué se considera un buen resultado, qué es inaceptable y cómo deben gestionarse las compensaciones.

Nivel 4: Los agentes preservan el aprendizaje humano

Los tres primeros niveles se centran en lograr que los agentes presten un mejor servicio a los humanos. El nivel L4 invierte la pregunta: ¿cómo pueden los agentes ayudar a los humanos a mejorar?

Esta es la parte que la mayoría de los productos basados en agentes no han abordado plenamente. Cuando los agentes realizan una mayor parte del trabajo por nosotros, ¿qué es exactamente lo que desaparece del lado humano del bucle?

A simple vista, perdemos el esfuerzo manual. Esa es la ventaja obvia. Pero también podemos perder tres cosas menos visibles: la memoria situada del trabajo, la práctica a la hora de hacer concesiones y el reconocimiento de patrones que surge de la exposición repetida a detalles complicados.

Lo he experimentado de primera mano al programar. Cuando escribía el código yo mismo, recordaba dónde estaba cada línea y cómo funcionaba el sistema porque había dedicado tiempo a leerlo, depurarlo, rastrearlo y corregirlo a mano. Ese proceso no solo generaba código. Entrenaba a mi cerebro para reconocer estructuras.

Con Claude Code, el código sigue generándose, a menudo más rápido. Pero al cabo de un tiempo, mi recuerdo del sistema no es tan profundo. Puede que sepa lo que hace el sistema, pero no siempre recuerdo cómo encajaban todas las piezas. La experiencia de crear se ve comprimida, y parte del aprendizaje desaparece con ella.

Esto no es un argumento en contra de los agentes de programación. Es un argumento a favor de que los productos de los agentes deben preservar aquellas partes del trabajo que desarrollan el juicio humano.

El mismo patrón se observa fuera de la programación. Si un agente redacta todos los memorandos estratégicos, el ser humano puede perder la práctica de estructurar un argumento. Si un agente resume todos los artículos, el ser humano puede perder el hábito de darse cuenta de lo que el resumen ha omitido. Si un agente se encarga de todas las decisiones operativas, el ser humano puede dejar de desarrollar la intuición que surge al lidiar con excepciones complicadas.

El trabajo desaparece. El resultado permanece. Pero el ciclo de aprendizaje puede debilitarse.

Ese es el problema del nivel 4.

El juicio humano es el límite

Esta pérdida es importante porque los agentes no operan en el vacío. Un agente es un multiplicador, no un sustituto. La misma herramienta produce resultados muy diferentes en manos de un experto y de un principiante. Un ingeniero sénior que utilice un agente puede llegar a ser mucho más eficaz. Un principiante puede limitarse a producir más resultados sin desarrollar un mejor criterio.

Los agentes amplifican el nivel cognitivo actual del usuario.

Esto es importante porque el Nivel 3 depende de que los humanos definan las normas que deben seguir los agentes. Pero la calidad de esas normas depende de la calidad del juicio humano. Si el ser humano deja de mejorar, las normas acaban quedando obsoletas. Se vuelven incompletas, superficiales o desalineadas con la realidad actual del trabajo.

El sistema funciona mejor como un ciclo:

El criterio humano define las normas.
Los agentes actúan dentro de esos estándares.
Los resultados de la ejecución se incorporan al aprendizaje humano.
El aprendizaje humano mejora las normas.

Si el ciclo funciona, ambas partes mejoran. El agente actúa con mayor eficacia y el ser humano mejora a la hora de definir qué significa «eficaz». Si el ciclo se rompe, el sistema se degrada. El juicio humano se estanca. Los estándares quedan obsoletos. Los agentes siguen optimizando, pero lo hacen dentro de un marco que poco a poco se va quedando atrás.

Por eso el juicio humano es el límite máximo. Unos agentes más potentes no eliminan la necesidad de personas más competentes. Hacen que la calidad del juicio humano sea más importante, porque ese juicio se convierte en el marco dentro del cual opera el agente.

Por qué los agentes no pueden resolver todo el problema por sí solos

Una respuesta es obvia: los agentes seguirán haciéndose más potentes, por lo que quizá acaben generando por sí mismos mejores conocimientos, mejores reglas y mejores estándares.

Hay algo de verdad en eso. Los agentes ya son muy eficaces a la hora de combinar ideas, explorar espacios de soluciones y descubrir caminos que los humanos quizá no hayan considerado. Un modelo puede producir frases, diseños y soluciones que nunca aparecieron en sus datos de entrenamiento. Puede recombinar patrones de distintos ámbitos y generar alternativas útiles.

Ese es el valor real. Pero el Nivel 4 se centra en un tipo diferente de creación. La cuestión no es solo quién puede encontrar una respuesta mejor, sino quién puede plantear una nueva pregunta, reescribir la norma o ampliar el espacio del problema.

Los agentes son muy buenos generalizando, combinando y buscando dentro de una distribución existente. Pueden encontrar mejores caminos a través de un terreno conocido, a veces caminos que los humanos no han probado. Pero decidir si el terreno en sí mismo debe rediseñarse es otra cosa.

Ese tipo de decisión suele surgir del contexto humano: las limitaciones vividas, los intereses personales, la curiosidad, la insatisfacción y el coste de equivocarse. Una persona puede formular una hipótesis que rompa con el marco actual y ponerla a prueba frente a la realidad. Y lo que es más importante, una persona puede tener una razón para seguir probando cuando la idea parece errónea, arriesgada o inútil en un primer momento.

La geometría no euclidiana es un ejemplo útil. El paso importante no fue simplemente preguntarse: «¿Y si las líneas paralelas se cruzaran?». Cualquier agente podría haber formulado esa frase. El paso importante fue considerar que valía la pena investigar esa extraña suposición y, a continuación, seguir sus consecuencias hasta que se convirtiera en un nuevo espacio teórico. Eso requirió persistencia, intereses en juego y una razón para preocuparse por el resultado.

El marco de creatividad de Margaret Boden resulta útil en este contexto. Ella distingue entre tres tipos de creatividad:

Creatividad combinatoria: combinar ideas conocidas de formas nuevas.
Creatividad exploratoria: buscar dentro de un espacio conceptual ya existente.
Creatividad transformacional: cambiar las reglas del propio espacio conceptual.

Los agentes ya destacan en los dos primeros modos. Combinan ideas existentes y exploran dentro de espacios conceptuales ya existentes. El tercer modo es más difícil. La creatividad transformacional depende de algo más que de una búsqueda más rápida. Depende de por qué alguien decide rechazar una regla antigua, aceptar el coste del fracaso y seguir probando una idea que aún no encaja.

La afirmación más precisa es la siguiente: los agentes destacan sobre todo a la hora de combinar y explorar dentro de los espacios existentes. Los nuevos conocimientos fundamentales, los nuevos espacios de problemas y los nuevos marcos de valores siguen dependiendo en gran medida de los seres humanos.

Diseña pensando en el ciclo, no solo en el resultado

No todos los productos basados en agentes tienen que resolver el nivel 4. Algunos productos solo tienen que ayudar a los usuarios a realizar las tareas más rápido. Eso está bien. Otros necesitan memoria, estándares y una mejor integración en el flujo de trabajo.

Pero a nivel del ecosistema, algunos productos deben preservar el ciclo de aprendizaje. Si cada producto de agente ayuda a las personas a realizar menos trabajo, y ninguno les ayuda a seguir aprendiendo una vez que dejan de realizar el trabajo directamente, la capacidad humana se debilita con el tiempo. El espacio de optimización de los agentes deja de expandirse. Todo el sistema permanece limitado por el nivel actual de juicio humano.

Aquí es donde el diseño del producto cobra importancia. El Nivel 4 no consiste simplemente en pedir al agente que resuma lo que ha hecho. Un producto útil de Nivel 4 conserva aquellas partes del trabajo que desarrollan el juicio humano, incluso cuando el agente se encarga de la mayor parte de la ejecución.

Hay algunos patrones de producto que cobran importancia aquí:

Conservar los puntos clave de juicio. Algunas decisiones deben seguir siendo visibles para el ser humano, no porque el agente no pueda tomarlas, sino porque esas decisiones entrenan el juicio. El producto debe identificar qué momentos son importantes y mantenerlos como objeto de deliberación.
Reconstruir el proceso, no solo el resultado. Un producto final no es suficiente. El sistema debe poner de manifiesto las ramificaciones clave de la toma de decisiones, las compensaciones, las vías alternativas y los intentos fallidos. Un usuario que solo ve el resultado puede aprobarlo o rechazarlo. Un usuario que ve el razonamiento puede actualizar su modelo mental.
Fomenta la exploración colaborativa. Cuando el usuario tiene dudas, el agente no debe lanzarse directamente a dar una respuesta. Debe ayudar a ampliar el espacio del problema: qué dimensiones son importantes, qué supuestos faltan, qué información se necesita aún y qué costes conlleva cada opción.
Cuestionar las suposiciones humanas. Esto no significa rebatir por el mero hecho de discrepar. Significa reconocer las lagunas o tensiones en el razonamiento del usuario y formular preguntas específicas que hagan visibles esas tensiones.

El objetivo no es obligar a los humanos a volver a realizar cada paso manualmente. Eso iría en contra de la finalidad de los agentes. El objetivo es preservar aquellas partes del trabajo que convierten la experiencia en juicio.

Los productos basados en agentes no solo deben optimizarse en cuanto al resultado. Deben optimizarse para el ciclo de retroalimentación: un mejor juicio humano, mejores estándares, una mejor ejecución por parte de los agentes y un mejor aprendizaje humano a partir de los resultados.

Cuando los agentes de IA realizan el trabajo, no debemos perder el ciclo que, en primer lugar, hizo que los humanos fueran mejores en ese trabajo.

Nos encantaría conocer tu opinión

Si estás desarrollando agentes, me encantaría saber qué opinas al respecto: ¿qué partes del trabajo deberían asumir por completo los agentes y qué partes deberían seguir siendo visibles porque ayudan a los humanos a seguir mejorando?