AIエージェントが仕事を担うとき、私たちは何を失うのか?
エージェント製品は、作業をこなす能力が飛躍的に向上しています。
Claude Codeは、大量のコードを記述したりリファクタリングしたりできます。Cursorは、開発者がコードベースをより迅速に処理できるよう支援します。Devinをはじめとするタスク指向のエージェントは、より長期にわたるワークフローを引き継ごうとしています。コーディング以外にも、エージェントはメールの下書き作成、文書の処理、データの要約、チケットの更新を行い、かつては人間が直接手を加える必要があった反復的なタスクを自動化しています。
こうした製品のほとんどは、同じ約束をしています。「エージェントに十分なコンテキストを与えれば、実行作業のより多くの部分を代行してくれる」というものです。この約束は有用ですが、同時に、エージェント製品がまだ完全には答えを出せていない疑問も生み出しています。それは、「エージェントがより多くの作業を行うようになったとき、私たちは何を失うのか?」という疑問です。
その答えは、単に「手作業」というだけではありません。タスクは完了するかもしれませんが、人間はかつて判断力を養うために必要だったプロセスの一部――読み込み、追跡、デバッグ、選択肢の比較、失敗、そしてある解決策が別の解決策より優れている理由の理解――を省略してしまう可能性があるのです。
これは、エージェントが学習にとって悪いという意味ではありません。エージェント製品は、学習を念頭に置いて設計される必要があるということです。もし出力のみを最適化すれば、エージェントが依存する基準を人間が向上させるのに役立つ、まさにその経験そのものを奪ってしまう恐れがあります。
この問題を考える上で有用な方法は、自動運転システムから「自律性の段階」という概念を借用することです。この類推は完璧ではありませんが、エージェント製品におけるさまざまな種類の進歩を区別するのに役立ちます:
- L1エージェントはタスクを実行します。人間が指示を出し、エージェントがそれを実行します。
- L2エージェントは記憶する。好み、修正、プロジェクトの文脈を保存することで、セッションを超えて学習する。
- L3エージェントは基準を適用します。人間は、すべてのステップを指示する代わりに、ルール、制約、意思決定基準を定義します。
- L4レベルのエージェントは、人間を向上させます。エージェントは単に作業を行うだけでなく、人間が判断力を維持し、深めるのを支援します。
業界の大部分は依然として最初の3つのレベルに焦点を当てています。それは理にかなっています。実行、記憶、基準は、製品にとって差し迫った課題だからです。しかし、長期的なリスクが現れるのはL4の領域です。もし人間が成長を止めてしまえば、エージェントを導く基準もまた、成長を止めてしまうからです。
L1:エージェントが実行する
AIアプリケーション開発は、いくつかの抽象化レイヤーを経て進化してきました:
- 当初、開発者はAPIを通じてモデルを呼び出していました。テキストを送信し、テキストを受け取るという仕組みです。
- 次にプロンプトエンジニアリングが登場し、そこでの主なスキルは、より良い質問の仕方を学ぶことでした。
- その後、コンテキスト・エンジニアリングが登場し、特定の状況でモデルが有用な動作をするために、十分な例や制約、背景情報をモデルに与えることが課題となりました。
- さらにその後、「ハーネス・エンジニアリング」が登場しました。これは、モデルをツール、ワークフロー、ファイル、データベース、ブラウザ、ターミナル、本番システムに接続するものです。
- エージェント・エンジニアリングは、その上に構築されます。モデルに単一のプロンプトへの回答を求めるのではなく、手順の計画、ツールの選択、結果の検証、エラーからの回復、そしてより少ない監督のもとで多段階のタスクを完了するよう求めます。
技術的な側面は変化し続けていますが、L1における基本的な関係性は変わりません。つまり、人間がタスクを定義し、エージェントがそれを実行するということです。各インタラクションは依然として、ほぼ独立したものです。タスクが完了するとセッションは終了し、次のタスクはゼロから始まります。
このレベルでは、行動を変えるのに十分な効果がすでに得られています。エージェントは、手動による労力を減らしながら、より多くの実行処理をこなせるようになります。エージェントがより安価で、高速で、信頼性が高まるにつれて、出力は増加し、コストは低下します。
しかし、実行が容易になることで新たなボトルネックが生じます。並行して行われる各セッションにおいて、依然として人間がタスクの説明、文脈の提供、出力の確認、品質の評価、そして次の行動の決定を行う必要があります。作業自体はエージェントが行っているかもしれませんが、その作業が適切かどうかを判断する責任は依然として人間にあります。
実行コストは低下する。判断の重要性は高まる。
L2:エージェントは記憶する
L1は目の前のタスクを解決します。L2は別の問いを投げかけます。「エージェントはこのやり取りから学び、次回のやり取りをより良いものにできるか?」
純粋なL1エージェントはステートレスです。セッションが終了すると、コンテキストは消えてしまいます。次のタスクはゼロから始まります。L2エージェントは、セッションを超えて経験を蓄積することで、そのパターンを打ち破ります。彼らは、ユーザーの好み、プロジェクトの慣例、繰り返し寄せられるフィードバック、過去の決定、そしてユーザーの作業パターンを記憶します。その目的は、人間とエージェントの相互作用を通じて生み出された経験を、再利用可能な資産に変えることです。
また、これがエージェントの記憶を、単なる長いプロンプトや保存されたトランスクリプトのフォルダとして扱うべきではない理由でもあります。有用な記憶には、耐久性のあるストレージ、意味論的検索、重複排除、更新、そして古くなったコンテキストと依然として有用な知識を区別する方法といったインフラストラクチャが必要です。ここが、Zillizでの私たちの取り組みがこの問題と結びつく点です。Milvus、およびそれを基盤として構築されたマネージドサービス「Zilliz Cloud」は、過去のコンテキストを単にアーカイブするだけでなく検索可能にするため、エージェントのメモリの検索レイヤーとして頻繁に利用されています。
しかし、L2メモリには構造的な限界があります。この段階でエージェントが学習する内容のほとんどは、観察可能な行動、つまりユーザーが何を言ったか、変更したか、受け入れたか、拒否したか、あるいは修正したかといったことから得られます。エージェントは、あなたが段落を書き直したり、実装を拒否したり、関数のシグネチャを変更したりしたことを記憶しているかもしれません。しかし、その理由までは理解していない可能性があります。
問題は、正確性、口調、保守性、セキュリティリスク、パフォーマンス、製品のポジショニング、それとも他の何かだったのでしょうか? 行動とは、判断の表層に現れたものに過ぎません。その背後にある推論は、往々にして隠されたままです。
そのため、L2は暗黙知よりも明示的な知識を捉えるのに優れています。ユーザーが直接述べたルールを記憶し、過去の決定事例を保存することはできます。しかし、事例が自動的に原則になるわけではありません。エージェントは、その背後にある基準を理解せずに、単に何が起きたかを記憶しているだけかもしれません。
そのギャップがL3へとつながります。
L3:エージェントが基準を適用する
L1とL2が稼働し始めると、次の明らかなステップは並列処理です。
1つのエージェントがタスクを完了できるなら、10個実行してみてもいいのではないか? エージェントが1回のセッションから学習できるなら、多くのセッションを開いて、それらすべてに同時に作業を行わせてもいいのではないか? これが「10倍エンジニア」あるいは「100倍エンジニア」の論理であり、エージェントを使って出力を増幅させるという考え方だ。
実際には、並列処理にはそれ自体のコストが伴います。どのセッションにおいても、人間は依然としてコンテキストを切り替え、問題を理解し、作業内容を確認し、フィードバックを与え、結果が十分かどうかを判断する必要があります。ある一定点を過ぎると、エージェントの数はもはや「レバレッジ」とは感じられなくなり、「オーバーヘッド」として感じられるようになります。
これは単なるワークフローの問題ではありません。認知的な壁なのです。人間は機械のように並列タスクを処理することはできません。タスクの切り替えは注意力を消耗させます。作業記憶には限界があります。切り替えを行うたびに、細部を見落とす、誤った基準を適用する、あるいは作業を早々に承認してしまう可能性が高まります。
優れた製品は、この限界と戦ってはなりません。その限界を前提として設計されるべきです。
L3レベルでは、入力内容が「この特定の問題をこの特定の方法で解決せよ」から「適用すべき基準はこれだ」へと変化します。人間は、すべてのステップを指導するオペレーターではなく、ルール、制約、好み、品質基準、意思決定基準を定義する役割へと変わります。
ユーザーが特定のタスクについてエージェントを指導することは依然としてあり得ますが、その指導の価値はセッション終了とともに失われてはなりません。そのやり取りは、単なる会話記録ではなく、再利用可能な基準として残されるべきです。次回、同様のタスクが発生した際、エージェントは、人間に文脈の全体像を再構築させたり、同じ判断を改めて下させたりすることなく、その基準を適用すべきです。
業界はすでにこの方向へと動き出している。多くのエージェント製品では、ユーザーがルール、指示、記憶、プロジェクトの慣例、行動の好みを定義できるようになっている。方向性は正しいが、ほとんどの実装はまだ初期段階にある。ルールは多くの場合、静的なテキストであり、手動で更新され、断片的で、ユーザーの意思決定の背後にある推論とは緩やかにしか結びついていない。
より強力なパターンは、継続的に更新される個人の認知モデルです。これは、人がどのように判断し、決定し、トレードオフを行うかを機械が読み取れる形で表現したものです。そこには、好み、価値観、制約、例外、基準、意思決定スタイルが、エージェントが取得して適用できる文脈として組み込まれるべきです。
単に過去の会話を保存するのではなく、ユーザーの思考を機械が理解できる形にするべきだ。
それに応じて、ユーザーの役割も変化します。タスクごとに一から説明する代わりに、ユーザーは基準を洗練させ、選好を更新し、仮定を修正し、暗黙の判断を明示化することで、モデルを維持管理します。ある意味で、ユーザーは自分自身を継続的に「トークン化」しているのです。つまり、自分の思考のより多くの部分を、エージェントが利用できる形式に変換しているのです。
実行コストが低い場合、人間はタスク開始前に実装の細部をすべて決定する必要はない。人間が定義すべきなのは、望ましい結果とは何か、何が許容できないか、そしてトレードオフをどのように扱うべきかである。
L4:エージェントは人間の学習を維持する
最初の3つのレベルは、エージェントが人間により良く奉仕することに焦点を当てています。L4は問いを逆転させます。つまり、「エージェントは、人間がより良くなるためにどのように役立つことができるか」ということです。
これは、ほとんどのエージェント製品がまだ完全に向き合っていない部分です。エージェントが私たちのためにより多くの仕事をこなすようになると、ループの人間側からは一体何が失われるのでしょうか?
表面的には、手作業の労力が削減されます。それが明らかなメリットです。しかし、それ以外にも、3つの目に見えにくいものを失う可能性があります。それは、仕事に関する状況に即した記憶、トレードオフを行う練習、そして煩雑な詳細に繰り返し触れることで得られるパターン認識です。
私はコーディングを通じて、これを身をもって実感してきました。自分でコードを書いていた頃は、時間をかけて読み込み、デバッグし、トレースし、手作業で修正していたため、各行がどこにあるか、システムがどのように機能するかを覚えていました。そのプロセスは単にコードを生み出すだけではありませんでした。それは私の脳に構造を認識する能力を鍛えてくれたのです。
Claude Codeを使えば、コードは依然として生成され、多くの場合、より速く生成されます。しかし、しばらくすると、システムに対する私の記憶はそれほど深くないものになってしまいます。システムが何をするかは分かっていても、各部分がどのように組み合わさっているかを常に覚えているとは限りません。構築する経験が圧縮され、それに伴って学びの一部も失われてしまうのです。
これは、エージェントによるコーディングに反対する主張ではない。エージェントが生成する成果物には、人間の判断力を養う作業の要素を保持する必要があるという主張である。
同様のパターンはコーディング以外の分野でも見られます。エージェントがすべての戦略メモの草案を作成すれば、人間は議論を構成する練習の機会を失うかもしれません。エージェントがすべての論文を要約すれば、人間は要約から何が抜け落ちているかに気づく習慣を失うかもしれません。エージェントがすべての業務上の意思決定を処理すれば、人間は厄介な例外に対処することから得られる直感を養うことをやめてしまうかもしれません。
仕事そのものは消え去り、成果物だけが残る。しかし、学習のループは弱まってしまうかもしれない。
これこそがL4の問題である。
人間の判断こそが上限である
この損失が問題となるのは、エージェントが真空状態で動作するわけではないからだ。エージェントは「代替」ではなく「増幅器」である。同じツールでも、専門家の手と初心者の手では、まったく異なる結果を生み出す。エージェントを駆使するベテランエンジニアは、劇的に効率を高めるかもしれない。一方、初心者は、より良い判断力を養うことなく、単にアウトプットの量を増やすだけにとどまるかもしれない。
エージェントは、ユーザーの既存の認知レベルを増幅させる。
これが重要なのは、L3が、エージェントが従うべき基準を人間が定義することに依存しているからです。しかし、それらの基準の質は、人間の判断の質に依存しています。もし人間が成長を止めてしまえば、基準は最終的に陳腐化してしまいます。それらは不完全になったり、浅薄になったり、あるいは現在の業務の実情と乖離したりするのです。
このシステムは、次のようなループとして最も効果的に機能します:
- 人間の判断が基準を定義する。
- エージェントはそれらの基準の範囲内で実行を行う。
- 実行結果は、人間の学習にフィードバックされる。
- 人間の学習によって基準が改善される。
このループが機能すれば、双方とも向上します。エージェントはより効果的に実行し、人間は「効果的」とは何かを定義する能力を高めます。ループが途切れると、システムは劣化します。人間の判断は停滞し、基準は時代遅れになります。エージェントは最適化を続けますが、徐々に時代遅れになりつつある枠組みの中で最適化を行っているに過ぎません。
だからこそ、人間の判断こそが上限となるのです。より強力なエージェントが存在しても、より優れた人間が必要なくなるわけではありません。むしろ、人間の判断の質がより重要になるのです。なぜなら、その判断こそが、エージェントが動作する枠組みとなるからです。
なぜエージェントだけでは問題を完全に解決できないのか
一つの答えは明らかだ。エージェントはますます強力になっていくのだから、最終的には自らより優れた知識、ルール、基準を生み出せるようになるかもしれない。
そこには一理ある。エージェントはすでに、アイデアを組み合わせたり、解の空間を探索したり、人間が考えもしなかった道筋を提示したりすることに長けている。モデルは、学習データには一度も登場しなかった文章やデザイン、解決策を生み出すことができる。ドメインを越えてパターンを再構成し、有用な代替案を生成することも可能だ。
これこそが真の価値です。しかし、L4が注目しているのは、これとは異なる種類の創造です。問題は、誰がより良い答えを見つけられるかということだけではありません。誰が新しい問いを投げかけ、基準を書き換え、あるいは問題空間を広げることができるか、ということです。
エージェントは、既存の分布内での一般化、組み合わせ、探索に長けている。既知の領域において、時には人間が試したことのないような、より良い道筋を見つけることができる。しかし、その領域そのものを再定義すべきかどうかを判断することは別問題だ。
そのような決定は、多くの場合、人間の文脈――経験に基づく制約、個人的な利害、好奇心、不満、そして間違った場合の代償――から生まれる。人間は、現在の枠組みに反する仮説を立て、それを現実と照らし合わせて検証することができる。さらに重要なのは、そのアイデアが当初、間違っているように見えたり、リスクが高かったり、役に立たないように思えたりしても、人間には検証を続ける理由があるということだ。
非ユークリッド幾何学は、その有用な例だ。 重要なステップは、単に「平行線が交わったらどうなるか?」と問うことだけではなかった。エージェントでもその文を生成できたはずだ。重要なステップは、その奇妙な仮定を調査する価値があると見なし、それが新しい理論的空間となるまでその結果を追い続けたことだった。それには、粘り強さ、利害関係、そして結果に関心を寄せる理由が必要だった。
ここで、マーガレット・ボーデンの創造性フレームワークが参考になります。彼女は創造性を次の3種類に区別しています:
- 組み合わせ的創造性:既知のアイデアを新しい方法で組み合わせること。
- 探索的創造性:既存の概念空間内を探索すること。
- 変革的創造性:概念空間そのもののルールを変えること。
エージェントは、すでに最初の2つのモードにおいて高い能力を発揮している。彼らは既存のアイデアを組み合わせ、既存の概念空間内で探索を行う。3つ目のモードはより困難だ。変革的創造性は、単に検索速度の向上だけでは成り立たない。それは、なぜ誰かが古いルールを拒否し、失敗の代償を受け入れ、まだ適合していないアイデアを試し続けるのか、という理由に依存している。
より正確に言えば、エージェントが最も得意とするのは、既存の空間内での組み合わせと探索である。新しい基礎知識、新しい問題空間、そして新しい価値体系は、依然として人間に大きく依存している。
出力だけでなく、「ループ」を念頭に置いて設計する
すべてのエージェント製品がL4を解決する必要はありません。ユーザーがタスクをより速く完了できるよう支援するだけでよい製品もあります。それは問題ありません。また、記憶機能や標準規格、ワークフローとのより良い統合を必要とする製品もあります。
しかし、エコシステムレベルでは、学習ループを維持する必要がある製品もあります。もしすべてのエージェント製品が、人々の作業量を減らすだけであり、直接作業をやめた後も学び続けられるよう支援する製品が一つもなければ、人間の能力は時間の経過とともに弱体化していきます。エージェントの最適化空間は拡大しなくなります。システム全体が、今日の人間の判断力のレベルに縛られたままになってしまうのです。
ここで製品設計が重要になります。L4とは、単にエージェントに「何をしたか」を要約させることではありません。有用なL4製品とは、たとえ実行の大部分をエージェントが担っていたとしても、人間の判断力を養う業務の要素を保持するものです。
ここで重要な製品設計のパターンがいくつかあります:
- 重要な判断ポイントを維持する。一部の決定は、エージェントが下せないからではなく、それらの決定が判断力を鍛えるため、人間には可視化されたままにしておくべきです。製品は、どの瞬間が重要かを特定し、それらを意図的な判断の場として維持する必要があります。
- 結果だけでなく、プロセスも再現する。完成した成果物だけでは不十分です。システムは、重要な意思決定の分岐点、トレードオフ、代替経路、そして失敗した試みを可視化すべきです。出力結果しか見られないユーザーは、それを承認するか却下するかしかできません。しかし、推論の過程を見ることができるユーザーは、自身のメンタルモデルを更新することができます。
- 共同での探求を支援する。ユーザーが不確実な状況にあるとき、エージェントはすぐに答えに飛びつくべきではない。問題空間を広げる手助けをするべきである。つまり、どの側面が重要か、どのような仮定が欠けているか、まだどのような情報が必要か、そして各選択肢にはどのようなコストが伴うか、といった点についてである。
- 人間の仮定に疑問を投げかける。これは、単に異議を唱えるためだけに反論することを意味するのではない。ユーザーの思考におけるギャップや矛盾を認識し、それらの矛盾を可視化するような的を絞った質問を投げかけることを意味する。
目標は、人間にすべての手作業を再び強いることではありません。それではエージェントの存在意義が失われてしまいます。目標は、経験を判断へと昇華させる業務の部分を保全することです。
エージェント製品は、単にアウトプットを最適化するだけではいけません。フィードバックループ全体を最適化すべきです。つまり、人間の判断の向上、基準の改善、エージェントの実行能力の向上、そして結果から得られる人間の学習の向上です。
AIエージェントが業務を行う際、そもそも人間がその業務に熟達するきっかけとなったこのフィードバックループを失ってはなりません。
皆さんのご意見をお聞かせください
エージェントを開発されている方、この点についてどのようにお考えかぜひお聞かせください。業務のどの部分をエージェントが完全に引き継ぐべきか、また、人間が上達し続けるために役立つため、どの部分は可視化されたままにしておくべきか、という観点からご意見をお聞かせください。
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word



