에이전트 행동 일관성: LLM 기반 에이전트의 변동성 측정

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 동일한 입력에 대해 ReAct 스타일 LLM 에이전트를 여러 번 실행했을 때 행동 경로가 얼마나 일관되는지를 정량적으로 측정한다. 3,000번의 실험(3개 모델 × 100문제 × 10회 실행)에서 평균 2.0~~4.2개의 고유 행동 시퀀스가 관찰됐으며, 일관된 경로(≤2개)에서는 80~~92% 정확도를 보였지만, 경로가 많이 분산된 경우(≥6개)에는 25~60% 수준으로 크게 떨어졌다. 변동성은 주로 2단계(첫 검색 쿼리)에서 발생했으며, 온도 파라미터를 낮추면 일관성과 정확도가 모두 향상됨을 확인했다.

상세 분석

이 연구는 LLM 기반 에이전트의 신뢰성을 평가하기 위해 행동 일관성이라는 새로운 측정 축을 도입했다. 실험에 사용된 ReAct‑style 에이전트는 “생각 → 행동 → 관찰” 루프를 반복하며, 검색(Search), 문서 조회(Retrieve), 최종 답변(Finish)이라는 세 가지 도구만을 활용한다. 100개의 Hard 난이도 HotpotQA 질문을 각각 10번씩, 세 모델(Llama 3.1 70B, GPT‑4o, Claude Sonnet 4.5)에서 실행한 결과, 평균 고유 행동 시퀀스 수는 모델마다 2.0~4.2개로 큰 차이를 보였다. 특히 Llama 3.1 70B는 가장 높은 변동성을 나타냈으며, Claude Sonnet 4.5는 가장 낮은 변동성을 보였다.

행동 일관성과 정답률 사이의 상관관계는 모든 모델에서 강하게 나타났다. 일관된 경로(≤2개의 고유 시퀀스)를 가진 질문은 80~~92%의 정확도를 기록했지만, 경로가 6개 이상으로 분산된 경우 정확도는 25~~60%로 급격히 감소했다. 이는 행동 일관성이 에이전트의 신뢰성을 예측하는 강력한 지표가 될 수 있음을 시사한다.

분산이 언제 발생하는지를 분석한 결과, Llama 3.1 70B에서 69%의 분산이 2단계, 즉 최초 검색 쿼리 단계에서 발생했다. 이 단계에서 선택된 쿼리가 이후 전체 추론 흐름을 좌우한다는 점은, 검색 프롬프트 설계나 쿼리 확장 기법이 일관성 향상의 핵심이 될 수 있음을 암시한다.

또한 경로 길이와 성능 사이에도 부의 상관관계(r = ‑0.34)가 관찰되었다. 일관된 짧은 경로(평균 3.4단계)는 85.7%의 정확도를 보였지만, 평균 7.8단계에 달하는 긴 경로는 43% 수준에 머물렀다. 이는 에이전트가 불확실성을 느낄수록 더 많은 탐색·재시도를 수행하고, 그 과정에서 오류가 누적된다는 해석을 가능하게 한다.

온도 파라미터에 대한 실험에서는 Llama 3.1 70B를 온도 0.0과 0.7에서 비교했을 때, 온도를 낮추면 고유 시퀀스 수가 4.2→2.2로 감소하고 정확도가 77.4%→82.8%로 상승했다. 이는 샘플링 노이즈가 일관성 저하의 주요 원인 중 하나이지만, 온도만으로 모든 변동을 제거할 수는 없으며, 구조적·프롬프트 설계 수준에서도 개선이 필요함을 보여준다.

질문 유형별 분석에서는 다중 홉을 요구하는 Bridge 질문이 비교 질문에 비해 일관성은 높지만 정확도는 다소 낮았다. 이는 정답 공간이 제한된 Yes/No 형태가 정확도를 끌어올리지만, 설명 단계에서 다양성이 커져 일관성 측정에 영향을 미친다는 점을 드러낸다.

전체적으로 이 논문은 행동 일관성을 정량화하고, 이를 통해 에이전트의 오류 가능성을 사전에 탐지할 수 있는 실용적인 방법을 제시한다. 특히 초기 검색 단계와 경로 길이가 핵심 신호임을 밝혀, 향후 프롬프트 최적화, 검색 엔진 개선, 온도 조절 등 구체적인 엔지니어링 방안을 제시한다.

에이전트 행동 일관성: LLM 기반 에이전트의 변동성 측정

초록

상세 분석

댓글 및 학술 토론

의견 남기기