AI 에이전트 시스템 아키텍처, 응용 프로그램 및 평가

2026년 02월 04일

읽는 시간: 9 분

...

#paper #AI 요약

📝 원문 정보

- Title: AI Agent Systems Architectures, Applications, and Evaluation
- ArXiv ID: 2601.01743
- 발행일: 2026-01-05
- 저자: Bin Xu

📝 초록

인공지능(AI) 에이전트는 기초 모델과 실행 루프를 결합하여, 정보 수집, 상태 유지, 도구 선택 및 제약 조건 하에서의 다단계 작업을 수행합니다. 이러한 AI 에이전트는 현대 디지털 작업 환경에서 분산된 지식과 도구 중재 작업, 그리고 최종 결과에 대한 성공 정의를 처리할 수 있습니다. 이 논문은 에이전트 아키텍처와 학습 전략을 중심으로 이러한 시스템의 현재 격차 및 개선 방향을 조사합니다.

💡 논문 해설

1. **기초 모델과 실행 루프 결합**: AI 에이전트는 기초 모델과 실제 환경에 대한 관찰, 계획, 도구 호출, 메모리 업데이트 및 결과 검증을 수행하는 실행 루프를 결합합니다. 이는 마치 컴퓨터 프로그램의 핵심 알고리즘이 사용자 입력과 상호 작용하여 실제 작업을 수행하고 그 결과를 반환하는 것과 같습니다.

도구와 메모리 활용: 에이전트는 도구 호출 및 검색을 통해 외부 증거에 근거한 결정을 내릴 수 있습니다. 이는 마치 의사가 환자의 병력과 검사 결과를 바탕으로 진단을 내리는 것과 같습니다.
안정성과 안전성 강화: 에이전트 시스템은 제약 조건 하에서의 실행 및 다단계 작업 처리 능력을 통해 안정성을 향상시키며, 도구 호출에 대한 검증 루프를 통해 안전성을 확보합니다. 이는 마치 자동차가 운행 중에 다양한 상황을 감지하고 대응하는 것과 같습니다.

📄 논문 발췌 (ArXiv Source)

# 서론

동기

기초 모델은 자연어를 계산의 실제 인터페이스로 만들었지만 대부분의 실제 작업은 단일 질문에 대한 답변만이 아닙니다. 이들은 여러 소스에서 정보를 수집하고, 시간을 통해 상태를 유지하며, 도구 선택과 제약 조건(지연, 권한, 안전성 및 비용) 하에서 다단계 작업을 수행해야 합니다. AI 에이전트는 기초 모델을 환경을 관찰하고 계획하고 도구를 호출하고 메모리를 업데이트하며 결과를 검증하는 실행 루프와 결합함으로써 이 격차를 해결합니다. 다시 말해, 에이전트는 텍스트 생성자일 뿐 아니라 의도를 실제 세계에서 수행되는 절차로 번역하는 컨트롤러입니다(소프트웨어 저장소, 웹 브라우저, 기업 시스템 또는 물리적 로봇).

배경

현대 디지털 작업은 인터페이스와 API를 통해 분산되어 있습니다: 지식이 분산되어 있으며(문서, 데이터베이스, 대시보드), 행동은 도구 중재에 의해 이루어집니다(검색, 코드 실행, 티켓팅 시스템)이며 성공은 최종 결과의 정확성에 의해 정의됩니다. 순수한 대화형 시스템은 환영현상, 근거 부족 및 행동의 실행 또는 검증 불능으로 인해 이러한 설정에서 실패하는 경우가 많습니다. 도구 강화와 검색 강화 설계는 주장을 증거에 바인딩하고 중간 결과물을 검사 가능하게 함으로써 신뢰성을 향상시킵니다. 모듈형 도구 라우팅(예: MRKL 스타일)은 언어 이해를 전문 도구와 분리하여 구조화된 인터페이스를 강제하며 감사를 용이하게 합니다.

개요

현재 시대에서 에이전트가 특히 중요한 이유는 세 가지입니다. 첫째, 작업의 범위는 작성 지원에서 워크플로 자동화까지 확장되고 있습니다: 코딩 에이전트는 문제를 최종적으로 해결하고 웹 에이전트는 변동성 하에서 실제 사이트를 운영하며 기업 어시스턴트는 정책 제약 조건 아래 다단계 작업을 관리합니다. 둘째, 배포는 점점 더 대화형 및 장기적입니다: 작은 오류가 누적되고 비결정론(샘플링, 도구 실패)은 재현성을 복잡하게 만들고 검증 루프와 추적 기반 평가를 요구합니다. 셋째, 안전성과 보안 압력이 증가하고 있습니다: 프롬프트 주입, 신뢰할 수 없는 검색 내용 및 부작용 도구는 최종 응답을 넘어서ing 깊은 방어 정렬 및 가드레일을 요구합니다.

그림 1은 AI 에이전트의 주요 구성 요소와 실행 루프에 대한 고수준 시각적 개요를 제공합니다.

몇 가지 기술 트렌드가 오늘날 실용적인 에이전트 시스템을 가능하게 합니다. 기초 모델은 재훈련 없이도 강력한 일반화, 지시사항 준수 및 컨텍스트 내 학습을 지원하여 신속한 적응을 가능하게 합니다. 정렬 및 선호도 최적화(예: RLHF)는 사용성을 향상시키고 유해 행위를 줄여 실제 사용자 입력에 대해 더욱 견고한 에이전트를 만듭니다. 도구 호출은 스키마와 API를 통해 언어를 실행 가능한 행동으로 바꾸며, 검색 및 메모리는 외부 증거와 지속적인 상태에 기반한 결정을 근거로 합니다. 논리-작업 조율은 환경 상호 작용과 결합하여 안정성을 개선하고 실패로부터 회복하는 데 도움이 됩니다. 마지막으로, 다중 모달 인식은 GUI, 문서 및 몸체 설정에 대한 작업 공간을 확장함으로써 시각적 입력에 기반한 언어를 근거로 합니다.

현재의 격차

불안정성에도 불구하고 에이전트 시스템은 신뢰성, 재현성 및 대규모에서의 관리에 여전히 제약을 받고 있습니다. 장기 작업은 누적 오류를 증폭하고 샘플링과 도구 변동성과 같은 비결정론은 표준화된 프로토콜과 추적 완전성 없이는 평가와 디버깅이 어렵습니다. 도구 중심의 에이전트는 또한 새로운 안전 및 보안 위험을 제기합니다: 신뢰할 수 없는 검색 내용 및 프롬프트 주입은 도구 사용을 조작하고 부작용 행동은 텍스트만의 모더레이션보다 더 강력한 제약 조건을 요구합니다. 마지막으로, 시스템 수준에서의 트레이드오프 - 자율성 대 통제 가능성, 지연 시간 대 신뢰성 및 능력 대 안전 -는 도메인과 배포 환경에 따라 아직 잘 이해되지 않았습니다.

이 리뷰는 추론, 계획, 도구 사용 및 배포를 위한 기존 에이전트 아키텍처를 종합합니다. 우리는 (i) 학습 전략 및 시스템 최적화(§3), 그리고 (ii) 응용 작업을 조직하며 이는 다양한 능력과 평가 체제를 스트레스에 놓입니다 (§5). 전체적으로 우리는 반복적인 설계 트레이드오프를 강조하고 실제 도구 및 환경 변동성을 고려한 재현 가능한 평가를 강조합니다.

에이전트 중심 AI 패러다임: 도구와 환경 상호 작용 루프 내에 임베디드 모델

그림 2는 나머지 리뷰에서 논의되는 아키텍처 및 평가 선택을 동기화하는 에이전트 중심 패러다임을 요약합니다.

자율 에이전트 패러다임

이 장은 변환기 기반 기초 모델 중심의 에이전트 시스템에 대한 통합 패러다임을 소개합니다. 먼저 LLMs/VLMs가 정책 커널의 역할을 요약한 다음, “에이전트 트랜스포머” 추상화를 정의하여 에이전트 구성 요소 및 인터페이스를 명시적으로 만든 후 실제로 배포되는 에이전트 트랜스포머를 구축하는 실제 레시피를 설명합니다.

LLMs 및 VLMs

대형 언어 모델(LLMs)은 현대 에이전트의 주요 정책 커널입니다: 이들은 다양한 맥락(지시사항, 검색 문서, 도구 출력, 내부 메모리)을 결정(계획, 도구 호출 또는 자연어 작업)으로 매핑합니다. 최첨단 모델은 강력한 지시사항 준수 및 컨텍스트 내 학습이 가능하여 재훈련 없이도 능력을 신속히 부트스트랩할 수 있습니다. 그러나 LLMs 자체는 근거가 확실하지 않으며 외부 증거와 실행 가능한 검사 없이는 사실적이지만 잘못된 문장을 환영하는 경향이 있습니다. 이는 도구 중심 및 검색 중심 에이전트 설계를 동기화합니다: 모델은 신뢰할 수 있는 도구와 데이터 소스의 오케스트레이터입니다.

능력 향상은 최근에 주로 시스템 설계에서보다 큰 백본에서만 나오는 중요한 변화가 있었습니다. 현대 배포에서는 LLM을 예산 내 루프 안의 계획자/컨트롤러로 취급합니다: 에이전트는 시간, 토큰, 도구 호출 및 허용되는 부작용에 대한 명시적인 제한에 의해 제약받으며, 작업이 어렵거나 위험할 때만 “생각"을 동적으로 할당합니다. 이것은 직접 테스트 시 컴퓨팅 확장을 연결합니다: 자기 일관성, 재정렬, 역추적 및 나무 스타일 검색은 재훈련 없이 신뢰성을 향상시키지만 선택적으로 사용해야 하며 지연 시간과 비용이 급증하지 않도록 합니다. 관련하여 에이전트는 점점 더 구조화된 행동 공간(타입화된 도구 스키마와 구조화된 출력)을 주요 제어 표면으로 의존하고 있습니다: 모델은 실행되기 전에 스키마 유효성 검사 및 정책 확인을 통과해야 하는 작업을 제안합니다. 이를 통해 비정형 환영의 영향을 줄이고 강력한 감사를 가능하게 합니다. 마지막으로, 실제 프론트는 “답변"에서 “운영"으로 이동하고 있습니다: 에이전트는 상태를 유지하고 도구 실패로부터 회복하며 증거 추적을 통해 행동을 정당화해야 하며 이것은 메모리 설계 및 추적 완전성을 첫 번째 클래스 아티팩트로 강조합니다.

비주얼-언어 모델(VLMs)은 결정을 이미지, 화면, 문서 및 몸체 관찰에 근거하는 이 패러다임을 확장합니다. 대조 및 지시사항 튜닝 VLM은 픽셀에서 토큰으로의 강력한 인터페이스를 제공하여 에이전트가 GUI(스크린샷), 차트와 양식을 읽고 행동을 시각적 상태에 맞추는 것을 가능하게 합니다. 실제로 다중 모달 에이전트는 인식을 도구로 분해하고(LT, 검출, 레이아웃 파싱) LLM을 계획자/컨트롤러로 사용하여 시각적 증거를 텍스트 및 도구 출력과 통합합니다. 이 분리는 감사를 개선합니다: 중간 인식 아티팩트는 하류 행동에 대한 확정 이전에 검사하고 확인할 수 있습니다.

정렬 및 선호도 최적화는 또한 패러다임의 기초입니다. RLHF 스타일 훈련은 지시사항 준수를 개선하고 유해 행위를 줄여 실제 사용자 입력에 대해 정책 커널이 더 신뢰할 수 있게 합니다. 그러나 에이전트는 도구를 통해 부작용 행동을 취할 수 있으므로 안전성은 최종 응답뿐만 아니라 전체 실행 그래프(검색, 도구 출력 및 작업 게이팅) 내에서 강제되어야 합니다.

에이전트 트랜스포머 정의

에이전트 트랜스포머는 환경 관찰, 메모리, 타입화된 스키마가 있는 도구, 그리고 사이드 이펙트 발생 전 제안을 검증하는 감시자/비평가와 명확한 인터페이스를 갖춘 구조화된 제어 루프 내에 임베디드 트랜스포머 기반 정책 모델로 정의됩니다. 핵심 아이디어는 에이전트 행동을 관찰, 중간 생각/계획, 도구 호출 및 결과의 상호 작용 추적 시퀀스 모델로 만드는 것입니다.

구체적으로 에이전트 트랜스포머는 튜플 $`\mathcal{A}=(\pi_\theta,\mathcal{M},\mathcal{T},\mathcal{V},\mathcal{E})`$으로 설명할 수 있습니다. 여기서 $`\pi_\theta`$는 트랜스포머 정책, $`\mathcal{M}`$은 메모리 서브시스템(예: 검색, 요약 및 상태), $`\mathcal{T}`$는 도구 세트(API, 코드 실행, 검색, 데이터베이스), $`\mathcal{V}`$는 감시자/비평가 세트, 그리고 $`\mathcal{E}`$는 환경입니다. 시간 단계 $`t`$에서 실행 루프는 다음과 같이 진행됩니다: (i) 에이전트는 환경 $`\mathcal{E}`$로부터 관찰 $`o_t`$를 수집합니다; (ii) 그는 메모리 $`\mathcal{M}`$으로부터 관련 메모리를 검색합니다; (iii) 정책 $`\pi_\theta`$을 사용하여 $`(o_t,m_t)`$에 조건화된 후보 작업 $`a_t`$를 제안합니다; (iv) 그는 $`\mathcal{V}`$를 사용하여 $`a_t`$를 검증하고(그리고 어떤 도구 스키마 제약 조건); 그리고 (v) 그는 선택한 도구 호출을 $`\mathcal{T}`$에서 실행합니다, 이는 다음 단계에 대한 환경 $`\mathcal{E}`$와 메모리 $`\mathcal{M}`$을 업데이트합니다.

MATH

\begin{equation}
\mathcal{A} \;=\; (\pi_\theta,\mathcal{M},\mathcal{T},\mathcal{V},\mathcal{E}),
\end{equation}

클릭하여 더 보기

MATH

\begin{equation}
o_t \leftarrow \mathrm{Obs}(\mathcal{E}_t), \qquad
m_t \leftarrow \mathrm{Retrieve}(\mathcal{M}_t, o_t),
\end{equation}

클릭하여 더 보기

MATH

\begin{equation}
\tilde{a}_t \sim \pi_\theta(\,\cdot \mid o_t, m_t), \qquad
\hat{a}_t \leftarrow \mathrm{Validate}(\mathcal{V}, \tilde{a}_t),
\end{equation}

클릭하여 더 보기

MATH

\begin{equation}
\mathcal{E}_{t+1} \leftarrow \mathrm{Exec}(\mathcal{E}_t, \mathcal{T}, \hat{a}_t), \qquad
\mathcal{M}_{t+1} \leftarrow \mathrm{Update}(\mathcal{M}_t, o_t, \hat{a}_t, \mathcal{E}_{t+1}).
\end{equation}

클릭하여 더 보기

이 운영적 관점을 기반으로 최신 프레밍은 루프를 위험 인식, 예산 제어로 해석합니다: 행동은 역가능성 및 잠재적인 영향에 따라 다릅니다. 에이전트 트랜스포머는 따라서 위험이 낮은 행동은 최소한의 고려 없이 실행되고 위험이 높은 행동은 추가 검증, 증거 수집 또는 인간 확인을 유발하는 결정 정책을 구현합니다. 이 프레밍에서 감시자는 선택적 부가 기능이 아니라 에이전트의 운영 의미론을 정의합니다: ReAct 스타일 추적은 성능뿐만 아니라 감사와 재현 가능한 재생을 가능하게 하는 증거 및 도구 출력에 바인딩된 결정으로 인해 가치가 있습니다. 마찬가지로, 검색 기반 고려(Thoughts Tree) 및 반성(Reflexion)은 불확실성이 높거나 실패가 감지되었을 때 추가 컴퓨팅 할당 메커니즘으로 해석될 수 있습니다.

이 추상화는 여러 주요 에이전트 패턴을 통합합니다. 검색 강화 생성은 정책을 외부 증거에 근거하여 검색을 첫 번째 클래스 도구 및 메모리 작업으로 만드는 것에서 출발점입니다. ReAct는 추론과 행동의 교차를 형식화하여 논의 토큰과 도구 호출 사이를 교차하며 안정성을 개선하고 증거에 근거한 추적을 가능하게 합니다. MRKL 스타일 시스템은 언어 이해를 결정적인 구성 요소와 분리하여 관리 가능성 를 향상시킵니다. 비평/반성 메커니즘(예: Reflexion)은 내부 피드백 채널을 추가하여 누적 오류를 줄이고 반복 수리를 지원합니다. 검색 기반 고려(Tree-of-Thoughts)는 계획을 행동 후보 공간 탐색으로 취급하며 신뢰성을 위해 컴퓨팅을 교환합니다. 마지막으로, 다중 에이전트 프레임워크는 여러 정책이 메시지를 통해 통신하여 특수화 및 교차 확인을 가능하게 하며 조정 복잡성의 비용을 지불하는 동일한 추상화를 구현합니다.

에이전트 트랜스포머 생성

메모리, 도구, 감시자 및 환경에 대한 명시적 인터페이스를 갖춘 에이전트 트랜스포머 추상화

그림 3은 메모리, 도구, 감시자 및 환경에 대한 명시적 인터페이스를 강조한 에이전트 트랜스포머 추상화를 설명합니다.

실제로 에이전트 트랜스포머를 구축하는 것은 모델 선택, 인터페이스 설계 및 평가를 결합하는 엔지니어링 과정입니다. 일반적인 레시피는 능력 있는 백본 모델을 선택한 다음 인터페이스를 통해 제약: 도구 스키마(입력/출력) 정의, 허용 목록 강제화 및 검색, 실행, 확정, 명확성 요청을 포함하는 작은 수의 캐나니컬 작업 템플릿 생성. 도구 스키마는 개방형 텍스트를 타입화된 행동으로 변환하여 실행 전 자동 인수 유효성 검사를 가능하게 하여 부드러움을 줄입니다.

다음으로 제어 루프를 설계합니다. 최소한의 루프는 (컨텍스트 검색) $`\rightarrow`$ (계획) $`\rightarrow`$ (도구를 통해 행동) $`\rightarrow`$ (검증) $`\rightarrow`$ (메모리 업데이트) $`\rightarrow`$ (반복), 이는 ReAct 및 반성 패턴과 밀접하게 정렬됩니다. 더 어려운 작업에는 결정 깊이를 추가해야 합니다: 후보 행동에 대한 나무 스타일 검색, 자기 일관성 재실행 및 정책 위반, 누락된 증거 또는 안전하지 않은 부작용을 확인하는 명시적 비평가. 도구가 많은 환경(웹, 코드, 기업 시스템)에서 가장 중요한 설계 선택은 종종 언제 사이드 이펙트를 허용할 것인지입니다: 영향력이 큰 행동은 강한 검증, 인간 확인 또는 샌드박스 실행을 필요로 합니다.

그 다음 환경에 맞는 학습 신호를 선택합니다. 많은 배포에서 도구 호출 + 결과의 추적에 대한 감독형 미세 조정이 강력한 초기 행동을 제공하며 선호도 최적화 및 RLHF는 대립적인 프롬프트 하에서 지시사항 준수와 거부 행위를 향상시킵니다. 도구 사용 학습

ArXiv 원문 PDF 보기