Когда работу выполняют ИИ-агенты, что мы теряем?

  • Engineering
June 18, 2026
Bill Chen

Агенты становятся всё более эффективными в выполнении поставленных задач.

Claude Code может писать и рефакторить большие фрагменты кода. Cursor помогает разработчикам быстрее ориентироваться в кодовой базе. Devin и другие задачно-ориентированные агенты пытаются взять на себя выполнение более длительных рабочих процессов. Помимо программирования, агенты составляют черновики писем, обрабатывают документы, обобщают данные, обновляют тикеты и автоматизируют повторяющиеся задачи, которые раньше требовали непосредственного участия человека.

Большинство этих продуктов дают одно и то же обещание: предоставьте агенту достаточно контекста, и он возьмет на себя большую часть работы за вас. Это обещание полезно, но оно также поднимает вопрос, на который продукты-агенты пока не дали полного ответа: когда агент выполняет большую часть работы, что мы теряем?

Ответ заключается не просто в «ручном труде». Задача может быть выполнена, но человек, возможно, пропустил часть процесса, которая раньше формировала его суждения: чтение, отслеживание, отладка, сравнение вариантов, совершение ошибок и понимание того, почему одно решение лучше другого.

Это не означает, что агенты мешают обучению. Это означает, что продукты на основе агентов необходимо разрабатывать с учётом обучения. Если они оптимизированы исключительно под конечный результат, они могут лишить человека именно того опыта, который помогает ему совершенствовать стандарты, от которых зависят агенты.

Полезный способ осмыслить эту проблему — заимствовать «лестницу автономности» из систем автономного вождения. Аналогия не идеальна, но она помогает разграничить различные виды прогресса в продуктах на основе агентов:

  • Агенты уровня L1 выполняют задачи. Человек дает инструкции, а агент их выполняет.
  • Агенты уровня L2 запоминают. Они обучаются в ходе сеансов, сохраняя предпочтения, исправления и контекст проекта.
  • Агенты уровня L3 применяют стандарты. Человек определяет правила, ограничения и критерии принятия решений, вместо того чтобы направлять каждый шаг.
  • Агенты уровня L4 совершенствуют человека. Агент не просто выполняет работу. Он помогает человеку сохранять и углублять способность к суждению.

Большая часть отрасли по-прежнему сосредоточена на первых трёх уровнях. В этом есть смысл. Выполнение, память и стандарты — это непосредственные проблемы продукта. Но именно на уровне L4 возникает долгосрочный риск. Если люди перестанут совершенствоваться, то стандарты, которыми руководствуются агенты, тоже перестанут совершенствоваться.

L1: Агенты выполняют

Разработка приложений ИИ прошла через несколько уровней абстракции:

  • Сначала разработчики вызывали модель через API: отправляли текст, получали текст в ответ.
  • Затем появилась инженерия подсказок, где главным навыком было научиться задавать более качественные вопросы.
  • После этого появилась инженерия контекста, где задачей стало предоставление модели достаточного количества примеров, ограничений и справочной информации, чтобы она могла вести себя полезно в конкретной ситуации.
  • Затем появилась инженерия харнесов: подключение моделей к инструментам, рабочим процессам, файлам, базам данных, браузерам, терминалам и производственным системам.
  • Инжиниринг агентов строится на основе всего этого. Вместо того чтобы просить модель ответить на один запрос, мы просим её планировать шаги, выбирать инструменты, анализировать результаты, восстанавливаться после ошибок и выполнять многоэтапные задачи с меньшим контролем.

Техническая среда постоянно меняется, но основные отношения на уровне L1 остаются прежними: человек определяет задачу, а агент её выполняет. Каждое взаимодействие по-прежнему в основном самодостаточно. Задача выполнена, сессия заканчивается, и следующая задача начинается с нуля.

Этот уровень уже работает достаточно хорошо, чтобы изменять поведение. Агенты могут выполнять больше задач с меньшими ручными усилиями. По мере того как они становятся дешевле, быстрее и надежнее, производительность растет, а затраты снижаются.

Однако упрощение выполнения задач создает новое «узкое место». Каждый параллельный сеанс по-прежнему требует участия человека, который должен объяснить задачу, предоставить контекст, проверить результат, оценить качество и решить, что делать дальше. Агент может выполнять работу, но человек по-прежнему несет ответственность за то, чтобы определить, насколько качественно она выполнена.

Выполнение задач становится дешевле. Оценка качества становится важнее.

L2: Агенты запоминают

L1 решает поставленную перед ним задачу. L2 задает другой вопрос: может ли агент извлечь уроки из этого взаимодействия, чтобы следующее прошло лучше?

Чистый агент уровня L1 не имеет состояния. Как только сессия заканчивается, контекст исчезает. Следующая задача начинается с нуля. Агенты уровня L2 нарушают эту схему, накапливая опыт от сессии к сессии. Они запоминают предпочтения пользователя, проектные конвенции, повторяющиеся отзывы, предыдущие решения и закономерности в работе пользователя. Цель состоит в том, чтобы превратить опыт, полученный в результате взаимодействия человека с агентом, в ресурс, который можно использовать повторно.

Именно поэтому память агента не следует рассматривать как удлинённый промт или папку с сохраненными стенограммами. Полезная память требует инфраструктуры: надёжного хранилища, семантического поиска, дедупликации, обновлений и способа отделения устаревшего контекста от знаний, которые по-прежнему полезны. Именно здесь наша работа в Zilliz соприкасается с этой проблемой. Milvus и построенные на его основе управляемые сервисы Zilliz Cloud часто используются в качестве уровня поиска для памяти агента, поскольку они позволяют искать прошлый контекст, а не просто архивировать его.

Однако память уровня L2 имеет структурное ограничение. Большая часть того, чему агенты учатся на этом этапе, происходит из наблюдаемого поведения: что пользователь сказал, изменил, принял, отклонил или исправил. Агент может запомнить, что вы переписали абзац, отклонили реализацию или изменили сигнатуру функции. Но он может не понимать, почему.

Была ли проблема в точности, тоне, удобстве обслуживания, риске для безопасности, производительности, позиционировании продукта или в чём-то ещё? Поведение — это видимая сторона суждения. Лежащие в основе рассуждения часто остаются скрытыми.

Поэтому L2 лучше справляется с фиксацией явных знаний, чем с неявными. Он может запоминать правила, которые вы сформулировали напрямую, и хранить примеры прошлых решений. Но примеры не становятся принципами автоматически. Агент может запомнить, что произошло, не понимая лежащего в основе этого стандарта.

Этот пробел приводит к уровню L3.

L3: Агенты применяют стандарты

Как только L1 и L2 начинают работать, очевидным следующим шагом становится параллелизм.

Если один агент может выполнить задачу, почему бы не запустить десять? Если агент может учиться на основе одной сессии, почему бы не открыть множество сессий и не позволить им всем выполнять работу одновременно? Это логика «инженера 10x» или «инженера 100x»: использовать агентов для увеличения производительности в несколько раз.

На практике параллелизм создаёт свои собственные издержки. Каждая сессия по-прежнему требует от человека смены контекста, понимания проблемы, проверки работы, предоставления обратной связи и принятия решения о том, достаточно ли хорош результат. После определённого момента увеличение количества агентов перестаёт восприниматься как рычаг эффективности и начинает восприниматься как накладные расходы.

Это не просто проблема рабочего процесса. Это когнитивный барьер. Люди не справляются с параллельными задачами так же, как машины. Переключение между задачами истощает внимание. Рабочая память ограничена. Каждое переключение увеличивает вероятность упустить детали, применить неверный стандарт или слишком быстро одобрить работу.

Хороший продукт не должен бороться с этим ограничением. Он должен быть спроектирован с учётом этого ограничения.

На уровне L3 вводная информация меняется с «решите эту конкретную проблему именно таким образом» на «вот стандарты, которые вы должны применять». Человек перестает быть оператором, направляющим каждый шаг, и становится тем, кто определяет правила, ограничения, предпочтения, планки качества и критерии принятия решений.

Пользователь по-прежнему может направлять агента при выполнении конкретной задачи, но ценность этого руководства не должна исчезать вместе с сеансом. В результате взаимодействия должен оставаться повторно используемый стандарт, а не просто стенограмма. В следующий раз, когда появится похожая задача, агент должен применить этот стандарт, не прося человека воссоздавать полный контекст и заново выносить то же суждение.

Отрасль уже движется в этом направлении. Многие продукты для агентов позволяют пользователям определять правила, инструкции, запоминаемые данные, проектные конвенции и предпочтения в поведении. Направление правильное, но большинство реализаций все еще находятся на ранней стадии. Правила часто представляют собой статический текст: обновляемый вручную, фрагментированный и лишь слабо связанный с логикой, лежащей в основе решений пользователя.

Более эффективная модель — это постоянно обновляемая модель личного познания: машиночитаемое представление того, как человек оценивает, принимает решения и идет на компромиссы. Она должна кодировать предпочтения, ценности, ограничения, исключения, стандарты и стиль принятия решений в качестве контекста, который агенты могут извлекать и применять.

Вместо того чтобы просто хранить прошлые разговоры, она должна сделать мышление пользователя понятным для машин.

Соответственно меняется и задача пользователя. Вместо того чтобы объяснять каждую задачу с нуля, пользователь поддерживает модель, уточняя стандарты, обновляя предпочтения, корректируя допущения и делая явными неявные суждения. В некотором смысле пользователь постоянно «токенизирует» себя: преобразует всё большее количество своих мыслей в форму, которую могут использовать агенты.

Когда выполнение задачи обходится недорого, человеку не нужно решать каждую деталь реализации до начала выполнения задачи. Человеку необходимо определить, как должен выглядеть хороший результат, что является неприемлемым и как следует решать компромиссные ситуации.

Уровень 4: Агенты сохраняют человеческое обучение

Первые три уровня сосредоточены на том, чтобы агенты лучше служили людям. Уровень L4 переворачивает вопрос: как агенты могут помочь людям стать лучше?

Именно с этой частью большинство продуктов на основе агентов еще не справились в полной мере. Когда агенты берут на себя большую часть работы, что именно исчезает со стороны человека в этом цикле?

На первый взгляд мы избавляемся от ручного труда. Это очевидное преимущество. Но мы также можем лишиться трёх менее заметных вещей: ситуативной памяти о работе, практики поиска компромиссов и умения распознавать закономерности, которое формируется благодаря постоянному столкновению с запутанными деталями.

Я непосредственно ощущал это при программировании. Когда я сам писал код, я помнил, где находилась каждая строка и как работала система, потому что тратил время на чтение, отладку, отслеживание и исправление кода вручную. Этот процесс не просто приводил к созданию кода. Он тренировал мой мозг распознавать структуру.

С помощью Claude Code код по-прежнему генерируется, причём зачастую быстрее. Но со временем мои воспоминания о системе становятся не такими глубокими. Я могу знать, что делает система, но не всегда помню, как все её части соединились воедино. Опыт создания системы сжимается, и вместе с ним исчезает часть полученных знаний.

Это не аргумент против агентов, занимающихся программированием. Это аргумент в пользу того, что продукты, созданные агентами, должны сохранять те аспекты работы, которые формируют человеческое суждение.

Такая же закономерность наблюдается и за пределами программирования. Если агент составляет черновики всех стратегических меморандумов, человек может утратить навык структурирования аргументации. Если агент подготавливает резюме каждой статьи, человек может утратить привычку замечать, что было упущено в резюме. Если агент принимает все оперативные решения, человек может перестать развивать интуицию, которая формируется при работе с нестандартными исключениями.

Работа исчезает. Результат остаётся. Но цикл обучения может ослабнуть.

В этом и заключается проблема уровня L4.

Человеческое суждение — это потолок

Эта потеря имеет значение, потому что агенты не работают в вакууме. Агент — это мультипликатор, а не замена. Один и тот же инструмент даёт совершенно разные результаты в руках эксперта и новичка. Старший инженер, работающий с агентом, может стать значительно более эффективным. Новичок же может просто производить больше результатов, не развивая при этом лучшего суждения.

Агенты усиливают существующий когнитивный уровень пользователя.

Это важно, потому что уровень L3 зависит от того, как люди определяют стандарты, которым должны следовать агенты. Но качество этих стандартов зависит от качества человеческого суждения. Если человек перестает совершенствоваться, стандарты со временем устаревают. Они становятся неполными, поверхностными или несоответствующими текущей реальности работы.

Система работает лучше всего в виде замкнутого цикла:

  • Суждения человека определяют стандарты.
  • Агенты действуют в рамках этих стандартов.
  • Результаты выполнения задач используются для обучения человека.
  • Обучение человека совершенствует стандарты.

Если цикл работает, обе стороны становятся лучше. Агент действует более эффективно, а человек лучше понимает, что значит «эффективно». Если цикл нарушается, система ухудшается. Человеческое суждение застаивается. Стандарты устаревают. Агенты продолжают оптимизироваться, но они оптимизируются в рамках, которые постепенно отстают от реальности.

Именно поэтому человеческое суждение является пределом. Более сильные агенты не устраняют потребность в более сильных людях. Они делают качество человеческого суждения более важным, поскольку именно это суждение становится рамками, в которых действует агент.

Почему агенты не могут решить всю проблему в одиночку

Один из ответов очевиден: агенты будут становиться всё сильнее, так что, возможно, со временем они сами будут генерировать более качественные знания, более эффективные правила и более совершенные стандарты.

В этом есть доля правды. Агенты уже хорошо умеют комбинировать идеи, исследовать пространства решений и находить пути, которые люди, возможно, не рассматривали. Модель может генерировать предложения, проекты и решения, которые никогда не встречались в её обучающих данных. Она может комбинировать шаблоны из разных областей и генерировать полезные альтернативы.

В этом и заключается настоящая ценность. Но L4 касается другого вида творчества. Вопрос заключается не только в том, кто может найти лучший ответ. Вопрос в том, кто может задать новый вопрос, переписать стандарт или расширить пространство задач.

Агенты сильны в обобщении, комбинировании и поиске в рамках существующего распределения. Они могут находить лучшие пути по известной местности, иногда такие, которые люди ещё не пробовали. Но решение о том, следует ли перерисовать саму местность, — это совсем другое дело.

Такое решение часто проистекает из человеческого контекста: реальных ограничений, личной заинтересованности, любопытства, неудовлетворенности и цены ошибки. Человек может сформулировать гипотезу, нарушающую существующие рамки, и проверить её на практике. Что ещё важнее, у человека может быть причина продолжать проверку, даже если идея на первый взгляд кажется неправильной, рискованной или бесполезной.

Полезным примером служит неевклидова геометрия. Важным шагом было не просто задать вопрос: «А что, если параллельные линии пересекаются?» Такое предложение мог бы сгенерировать любой агент. Важным шагом было расценить это странное предположение как достойное изучения, а затем проследить за его последствиями до тех пор, пока оно не превратилось в новое теоретическое пространство. Для этого требовались настойчивость, личная заинтересованность и причина, по которой результат был важен.

Здесь полезна концепция творчества Маргарет Боден. Она выделяет три вида творчества:

  • Комбинационное творчество: объединение знакомых идей новыми способами.
  • Исследовательская креативность: поиск в рамках существующего концептуального пространства.
  • Трансформационное творчество: изменение правил самого концептуального пространства.

Агенты уже сильны в первых двух видах. Они комбинируют существующие идеи и исследуют существующие концептуальные пространства. Третий вид — более сложный. Трансформационное творчество зависит не только от ускорения поиска. Оно зависит от того, почему кто-то решает отвергнуть старое правило, принять риск неудачи и продолжать тестировать идею, которая пока не вписывается в систему.

Более точное утверждение звучит так: агенты сильнее всего в комбинировании и исследовании в рамках существующих пространств. Новые фундаментальные знания, новые пространства проблем и новые системы ценностей по-прежнему в значительной степени зависят от людей.

Проектируйте с учетом цикла, а не только конечного результата

Не каждый продукт-агент должен решать задачи уровня L4. Некоторым продуктам достаточно просто помогать пользователям быстрее выполнять задачи. Это нормально. Другим нужны память, стандарты и лучшая интеграция в рабочий процесс.

Но на уровне экосистемы некоторые продукты должны сохранять цикл обучения. Если каждый агентский продукт помогает людям выполнять меньше работы, а ни один не помогает людям продолжать учиться после того, как они перестают выполнять работу напрямую, способности человека со временем ослабевают. Пространство оптимизации для агентов перестает расширяться. Вся система остается ограниченной современным уровнем человеческого суждения.

Именно здесь важен дизайн продукта. Уровень L4 — это не просто просьба к агенту подвести итоги своей работы. Полезный продукт уровня L4 сохраняет те части работы, которые формируют человеческое суждение, даже когда агент берет на себя большую часть выполнения задач.

Здесь важны несколько шаблонов разработки продукта:

  • Сохраняйте ключевые моменты принятия решений. Некоторые решения должны оставаться видимыми для человека — не потому, что агент не может их принять, а потому, что эти решения тренируют способность к суждению. Продукт должен определять, какие моменты важны, и оставлять их предметом осознанного выбора.
  • Воспроизводить процесс, а не только результат. Готового результата недостаточно. Система должна отображать ключевые ветви принятия решений, компромиссы, альтернативные пути и неудачные попытки. Пользователь, который видит только конечный результат, может его одобрить или отклонить. Пользователь, который видит путь рассуждений, может обновить свою ментальную модель.
  • Поддерживайте совместное изучение проблемы. Когда пользователь испытывает неуверенность, агент не должен сразу же предлагать готовый ответ. Он должен помочь расширить пространство проблемы: какие аспекты важны, каких допущений не хватает, какая информация ещё необходима и какие издержки сопряжены с каждым вариантом.
  • Подвергать сомнению человеческие допущения. Это не означает, что нужно противоречить просто ради противоречия. Это означает распознавание пробелов или противоречий в мышлении пользователя и постановку целенаправленных вопросов, которые делают эти противоречия видимыми.

Цель не в том, чтобы заставить человека возвращаться к каждому ручному шагу. Это противоречило бы самой сути агентов. Цель — сохранить те части работы, которые превращают опыт в суждение.

Продукты на основе агентов должны оптимизироваться не только с точки зрения результата. Они должны оптимизировать цикл обратной связи: улучшать человеческое суждение, повышать стандарты, совершенствовать работу агентов и улучшать процесс обучения человека на основе полученных результатов.

Когда работу выполняют ИИ-агенты, мы не должны терять ту петлю обратной связи, которая изначально помогла людям стать лучше в этой работе.

Мы с удовольствием выслушаем ваши мысли

Если вы занимаетесь разработкой агентов, я с удовольствием узнал бы, как вы относитесь к этому вопросу: какие части работы агенты должны полностью взять на себя, а какие должны оставаться на виду, поскольку помогают людям постоянно совершенствоваться?

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Продолжить чтение