効果的なAIエージェント構築方法とは

はじめに

近年、AI技術は急速に発展しており、特に大規模言語モデル（LLM）は、人間のように自然な文章を生成し、質問に答えたり、翻訳を行ったりと、様々なタスクをこなすことができます。
Anthropic社が公開したAIエージェントに関する情報を整理し、その概要、従来のAIモデルとの違い、社会への影響についてまとめます。

AIエージェントとは

Anthropic社は、「AIエージェント」を、長期間にわたって独立して動作し、様々なツールを使用して複雑なタスクを達成する自律的なシステムと定義しています。AIエージェントは、事前に定義されたワークフローに従うものとは区別されます。ワークフローとは、LLMとツールが事前に定義されたコードパスを通じて調整されるシステムです。一方、エージェントは、LLMが独自のプロセスとツールの使用を動的に指示し、タスクの達成方法を制御するシステムです。
AIエージェントを使用するかどうかは、タスクの複雑さや必要な柔軟性によって判断する必要があります。LLMを使用したアプリケーションを構築する際には、可能な限りシンプルなソリューションを見つけ、必要に応じてのみ複雑さを増すことが推奨されます。これは、Agentシステムをまったく構築しないことを意味する場合もあります。Agentシステムは、レイテンシとコストを取引してタスクパフォーマンスを向上させることが多く、このトレードオフが意味があるときに検討する必要があります。より複雑なことが正当化される場合、ワークフローは定義済みのタスクに対して予測可能性と一貫性を提供し、エージェントは柔軟性とモデル駆動型の意思決定が求められる場合に最適なオプションです。ただし、多くのアプリケーションでは、検索と文脈内の例を使用して単一のLLM呼び出しを最適化することで十分です。
従来のAIモデルは、人間が具体的な指示を与えることでタスクを実行していました。一方、AIエージェントは設定された目標を達成するために、必要なことを自律的に考え、タスクの実行や結果の評価までこなします。タスクが明確になると、エージェントは独立して計画と運用を行い、場合によってはさらなる情報や判断のために人に問い合わせます。実行中、エージェントは各ステップで「情報」（ツール呼び出しの結果やコード実行結果など）を取得して、進行状況を評価することが重要です。エージェントは、チェックポイントで、またはブロッカーが発生したときに、ヒューマンフィードバックのために一時停止することができます。タスクは完了すると多くの場合終了しますが、制御を維持するために停止条件（最大反復回数など）を含めることも一般的です。
AIエージェントは複雑なタスクを処理できますが、その実装は多くの場合、既存のツールや技術を組み合わせることで比較的容易に行えます。例えば、顧客サポート業務を自動化するAIエージェントの場合、自然言語処理、会話管理、知識ベース検索などの技術を組み合わせることで実現できます。
AIエージェントは自律的に動作するため、信頼できる環境でタスクをスケーリングするのに理想的です。例えば、大量のデータを分析する必要がある場合、AIエージェントは人間が介入することなく、自動的にデータを処理し、分析結果を報告することができます。ただし、AIエージェントの自律的な性質は、より高いコストと、エラーが複合する可能性を意味します。例えば、AIエージェントが誤った判断を下した場合、その影響は広範囲に及ぶ可能性がありますし、AIエージェントの開発・運用には、高度な技術と専門知識が必要となるため、コストが高くなる傾向があります。

AIエージェントの構成要素とワークフロー

AIエージェントは、LLMを中核に、検索、ツール、メモリなどの拡張機能を備えています。これらの拡張機能により、AIエージェントは、自ら検索クエリを生成し、適切なツールを選択し、必要な情報を記憶することができます。これらの拡張機能を実装するには多くの方法がありますが、1つのアプローチは、開発者がサードパーティツールと統合できるようにするModel Context Protocolの使用です。Model Context Protocolを使用すると、モデルは独自の検索クエリを生成し、適切なツールを選択し、保持する情報を判断します。
- Model Context Protocol（MCP）は、AIアシスタントをコンテンツリポジトリ、ビジネスツール、開発環境などのデータソースと接続するためのオープンスタンダードです。これにより、AIシステムが必要なデータにアクセスし、より適切で関連性の高い応答を生成できるようになります。
Anthropic社は、AIエージェントの構築にあたり、効果的なエージェントはシンプルで組み合わせ可能なパターンで構築されることを強調しています。さらに、生産性と信頼性を向上させるために、シンプルなプロンプトの最適化、包括的な評価、マルチステップシステムの使用を組み合わせる必要があるとしています。次のワークフローを提案しています。これらのワークフローを適切に組み合わせることで、複雑なタスクを効率的に処理することができます。

プロンプトチェーン / Prompt-Chaining:

タスクをステップのシーケンスに分解し、各LLM呼び出しは前の呼び出しの出力を処理します。プロセスがまだ処理中であることを確認するために、任意の中間ステップでプログラムによるチェックを追加できます。このワークフローは、タスクを簡単かつ明確にサブタスクに分解できる状況に最適です。
主な目標は、各LLM呼び出しをより簡単なタスクにすることで、レイテンシと高精度とのトレードオフです。
- 例えば、マーケティングコピーを生成し、それを別の言語に翻訳する、アウトラインが特定の基準を満たしていることを確認し、そのアウトラインに基づいてドキュメントを記述するなどのタスクに有効です。

ルーティング / Routing:

入力を分類し、それを専用のフォローアップタスクに送ります。このワークフローは懸念事項の分離と、より専門的なプロンプトの構築を可能にします。このワークフローを使用しない場合、ある種の入力に対して最適化すると、他の入力のパフォーマンスが低下する可能性があります。
ルーティングは、別々に処理するのが最適な異なるカテゴリが存在し、LLMまたはより伝統的な分類モデル/アルゴリズムによって分類を正確に処理できる複雑なタスクに適しています。
- 例えば、さまざまなタイプのカスタマーサービスクエリ（一般的な質問、払い戻しリクエスト、技術サポート）を、さまざまなダウンストリームプロセス、プロンプト、およびツールに振り分けます。

並列化 / Parallelization:

LLMは、タスクを同時に処理し、その出力をプログラム的に集約します。このワークフローは、2つの重要なバリエーションで示されます。1つ目はセクショニングで、タスクを独立したサブタスクに分割し、並行して実行します。2つ目は投票で、同じタスクを複数回実行して、多様な出力を得た後、最も良い結果を取得します。並列化は、分割されたサブタスクを速度のために並列化できる場合、またはより高い信頼性の結果に対して複数の視点または試行が必要な場合に効果的です。
複数の考慮事項を含む複雑なタスクの場合、LLMは一般に、各考慮事項が個別のLLM呼び出しによって処理され、各特定の側面に焦点を当てた注目を可能にする場合にパフォーマンスが向上します。
- 例えば、セクショニングでは、1つのモデルインスタンスがユーザクエリの処理を行い、別のモデルインスタンスが不適切なコンテンツや要求をスクリーニングするガードレールの実装があります。これは、同じLLM呼び出しでガードレールとコアレスポンスの両方を処理する場合よりもパフォーマンスが優れている傾向があります。

オーケストレータワーカー / Orchestrator-Workers Workflow:

中央LLMはタスクを動的に分割し、ワーカーLLMにそれらを委譲し、その結果を合成します。このワークフローは、必要なサブタスクを予測できない複雑なタスク（たとえば、コーディングでは、変更が必要なファイルの数と各ファイルの変更の性質は、おそらくタスクによって異なります）に適しています。サブタスクは事前に定義されておらず、特定の入力に基づいてオーケストレータによって決定されます。

エバリュエーターオプティマイザ / Evaluator-Optimizer Workflow:

1つのLLM呼び出しが応答を生成し、もう1つの呼び出しが評価とフィードバックをループで提供します。このワークフローは、明確な評価基準が存在し、反復的なリファインメントが測定可能な価値を提供する場合に特に効果的です。
- 例えば、翻訳LLMが翻訳を生成し、別のLLMが翻訳の品質を評価し、改善の提案をします。

AIエージェントの社会への影響

Anthropic社のAIエージェントは、様々な分野で活用が期待されています。McKinseyは、AIが生み出す価値は世界経済に毎年4.4兆ドルもの規模になる可能性があると予測しています。また、大企業の82％は2027年までにAIエージェントの導入を計画しています。
AIエージェントは、反復的な機能を自動化し、大規模なデータセットを分析し、リアルタイムで実用的なインサイトを提供することで、効果的な代替手段を提供します。AIエージェントの市場は今年の51億ドルから2030年までに470億ドルに急増すると予測されています。特に、顧客サポートやソフトウェア開発の分野では、大きな影響を与える可能性があります。
顧客サポートにおいては、AIエージェントが顧客の質問に答えたり、問題を解決したりすることで、顧客満足度向上に貢献します。
- 例えば、教育系出版社のWileyは、AIエージェントを導入して以来、サポート案件の解決数が40%以上増加し、これまで使っていたチャットボットを上回る成果を上げています。
- AIエージェントは定型業務の管理に役立ち、サービスチームはより複雑な案件に対応できるようになったと言います。ツール統合により、使い慣れたチャットボットインターフェイスと強化された機能を組み合わせています。
ソフトウェア開発においては、AIエージェントがコードの生成やバグの修正を自動化することで、開発効率を向上させることができます。ソフトウェア開発分野は、コード補完から自律的な問題解決までの機能の進化とともに、LLM機能の可能性を著しく示してきました。
- 例えば、GitHub Issues (GitHubイシューに登録されているバグ情報等) を解決するエージェントも登場しています。エージェントが自動的に問題を解決し、テスト結果をフィードバックとして受け取りながら、反復的に問題を解決していきます。自動テストは機能の検証に役立ちますが、人が行うレビューは、ソリューションが幅広いシステム要件と一致することを保証するために不可欠なままです。
AIエージェントは、顧客サポートやソフトウェア開発以外にも、製造業、IT業、コンサルティング業など、様々な分野で導入が進んでいます。
AIエージェントの導入により、企業はコスト削減や業務効率化を実現できるだけでなく、より高度なサービスを提供することが可能になります。AIエージェントは、常に100％自律的なわけではありません。AIエージェントの自律レベルは、その目的やタスクの複雑さによって異なります。しかし、AIエージェントは人間と協同して、顧客の成功とビジネス成果の向上を促進する場合に最も効果的です。半自律的な状況では、エージェントは通常、意思決定するために人間の介入を必要とします。Anthropic社は、エージェントは、会話と行動の両方を必要とし、明確な成功基準を持ち、フィードバックループを可能にし、意味のある人間の監督を統合するタスクに最も価値を追加すると述べています。

結論

AIエージェントは、従来のAIモデルを凌駕する能力を持つ、自律的なシステムです。高い推論能力、強化されたコーディング能力、高速な反応速度を特徴とし、様々な分野での活用が期待されています。特に、「Anthropic Computer Use」の登場は、AIエージェントがより広範囲なタスクを自律的に実行できることを示しており、AIエージェントの可能性を大きく広げるものです。Anthropic社は、AIエージェントの開発をさらに進め、より安全で信頼性の高いAIエージェントの実現を目指しており、今後の発展が期待されます。

AIエージェントは、今後、私たちの生活や仕事に大きな変化をもたらす可能性を秘めています。AIが自律的にタスクを実行するようになれば、人間の役割は変化し、新たな働き方が求められるようになるでしょう。同時に、AIエージェントの倫理的な側面についても、議論を進めていく必要があります。AIエージェントが社会に受け入れられ、より良い未来を実現するためには、技術的な発展だけでなく、倫理的な課題にも向き合っていくことが重要と思われます。

(c) Lions Data, LLC.