에이전트 행동의 내부 동인 탐색: 계층적 에이전시 귀인 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM 기반 에이전트가 수행한 특정 행동의 원인을, 성공·실패 여부와 무관하게 규명하기 위한 ‘에이전시 귀인’ 프레임워크를 제안한다. 먼저 시간적 로그가능도 변화를 이용해 중요한 상호작용 컴포넌트를 식별하고, 이어서 문장 수준의 교란 기반 분석으로 해당 컴포넌트 내 핵심 문장을 추출한다. 다양한 도구 사용 시나리오와 메모리 편향 사례에 적용해 높은 정확도의 귀인 결과를 보이며, 코드가 공개돼 재현 가능성을 확보한다.

상세 분석

이 연구는 기존의 ‘실패 귀인’ 접근법이 오류가 명시적으로 드러나는 경우에만 유효하다는 한계를 지적하고, 에이전트가 올바른 결과를 도출했더라도 내부 의사결정 과정이 비합리적일 수 있음을 강조한다. 이를 해결하기 위해 두 단계의 계층적 귀인 메커니즘을 설계하였다.

첫 번째 단계인 컴포넌트 수준 귀인은 에이전트의 전체 상호작용을 시간 순서대로 나열한 컴포넌트 시퀀스 C = (C₁,…,C_{2T+2})에 대해, 각 전 단계까지의 프리픽스 C≤i를 모델에 입력하고 목표 행동 a_T에 대한 로그가능도 ψ_i = log p(a_T|C≤i)를 계산한다. 이후 ψ_i와 ψ_{i‑1}의 차이 g_i = ψ_i − ψ_{i‑1}를 ‘시간적 이득’으로 정의하고, 이 값이 크게 상승하는 컴포넌트를 핵심 의사결정 요소로 선정한다. 이 방법은 기존의 평면적인 컨텍스트 귀인(RAG 등)과 달리, 도구 호출, 메모리 검색, 내부 사고 등 서로 다른 유형의 컴포넌트가 순차적으로 미치는 영향을 정량화한다는 점에서 혁신적이다. 또한 로그가능도 대신 임베딩 기반 유사도나 보상 모델을 활용할 수 있어, 안전성·윤리성 평가와도 연계 가능하다.

두 번째 단계인 문장 수준 귀인은 고득점 컴포넌트 내 문장을 S(C_i) = {s_{i,1},…,s_{i,N_i}}로 분할하고, 각 문장을 제거(ablated)했을 때 목표 행동 확률이 얼마나 감소하는지를 측정한다. 구체적으로, 문장 s_{i,j}를 제외한 컨텍스트 ˆC_{≤i}^{‑j}에 대해 p(a_T|ˆC_{≤i}^{‑j})를 계산하고, 원본 확률과의 차이를 ‘교란 점수’로 정의한다. 이 교란 점수는 인과적 기여도를 직접적으로 반영하므로, 특정 문장이 행동에 미친 영향을 명확히 드러낸다.

실험에서는 Llama‑3.1‑70B‑Instruct를 기반으로, (1) 도구 사용을 포함한 표준 작업, (2) 메모리 편향에 의한 비합리적 환불 결정, (3) 도구 조건 하 할루시네이션 등 세 가지 시나리오를 설계했다. 정성적 분석 결과, 제안된 프레임워크는 실제로 문제를 일으킨 메모리 항목이나 도구 출력 문장을 정확히 지목했으며, 기존 실패 귀인 기법이 놓친 ‘정상 결과 뒤의 위험’도 포착했다. 또한, 문장 수준 귀인에 대해 교란 기반, 그래디언트 기반, 어텐션 기반 세 가지 방법을 비교했을 때, 교란 기반이 가장 일관된 성능을 보였지만, 다른 방법들과도 보완적으로 활용 가능함을 보여준다.

이 논문의 주요 기여는 다음과 같다. 첫째, 에이전트 행동을 ‘왜’ 발생했는지를 설명하는 일반화된 귀인 프레임워크를 제시했다. 둘째, 시간적 로그가능도 변화를 이용한 컴포넌트 귀인이 에이전트의 순차적 사고 흐름을 효과적으로 추적한다는 점을 입증했다. 셋째, 교란 기반 문장 귀인이 미세한 텍스트 증거를 정량화함으로써, 정책 검증·규제·디버깅 등에 실용적인 도구가 될 수 있음을 실험적으로 증명했다. 마지막으로, 코드와 데이터셋을 공개함으로써 향후 연구자들이 다양한 LLM 에이전트에 적용·확장할 수 있는 기반을 마련했다.

에이전트 행동의 내부 동인 탐색: 계층적 에이전시 귀인 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기