피드백 기반 회복 능력 학습 LEAFE 프레임워크

본 논문은 대형 언어 모델(LLM)이 자율 에이전트로서 장기 상호작용 환경에서 행동하고 실수를 복구하는 과정에서 발생하는 ‘피드백 활용 부족’ 문제를 지적한다. 기존의 결과 기반 강화학습(RL VR) 방법은 최종 성공 여부만을 보상으로 사용해, 대부분의 실패 롤아웃에 대한 학습 신호가 거의 없으며, 결과적으로 모델이 이미 성공적인 궤적에만 집중하는 ‘분포 샤프닝’ 현상을 초래한다. 이는 Pass@1 은 어느 정도 개선되지만, Pass@k (k ≫ 1)와 같이 대규모 샘플링을 요구하는 상황에서는 모델의 실제 능력 한계가 크게 드러난다. 이를 해결하기 위해 저자들은 LEAFE(Learning Feedback‑Grounded Agency from Reflective Experience)라는 두 단계 프레임워크를 제안한다. 첫 단계에서는 에이전트가 일정 간격(K 스텝) 혹은 실패 직후에 현재 히스토리를 바탕으로 ‘반성 프롬프트’를 호출한다. 모델은 여기서 (τ, e) 쌍을 출력한다. τ는 잘못된 결정이 일어난 시점, e는 자연어 형태의 진단·수정 제안이다. 이후 환경을 τ 시점까지 되돌린 뒤, e 를 컨텍스트에 삽입해 수정 행동 a′_τ 를 생성한다. 이렇게 생성된 새로운 분기는 기존 궤적과는 다른 경로를 탐색하게 되며, 성공까지 이어지는 경우가 다수 관찰된다. BFS 기반 큐 관리로 롤백 트리를 확장함으로써, 탐색 예산 내에서 다양한 ‘실패→롤백→수정→성공’ 패턴을 체계적으로 수집한다. 두 번째 단계에서는 수집된 성공적인 브랜치를 두 종류의 지도 데이터로 변환한다. 첫째, 성공 롤아웃에서 추출한 (히스토리, 액션) 쌍을 이용해 행동 재현(rehearsal) 손실을 최소화함으로써 기존 능력의 망각을 방지한다. 둘째, 롤백 전 히스토리와 롤백 후 수정 행동을 매칭시켜 ‘경험→정책’ 손실을 정의한다. 이는 원래의 히스토리만 주어졌을 때 모델이 스스로 수정 행동을 예측하도록 학습시키는 것이며, 테스트 시에는 추가적인 경험 입력 없이도 복구 능력이 내재된다. 실험은 코드 생성 대회(CodeContests), 웹 쇼핑 시뮬레이션(WebShop), ALFWorld, ScienceWorld, Sokoban 등 다양한 장기 상호작용 벤치마크에서 수행되었다. 고정된 인터랙션 예산(예: 128 스텝) 하에서 LEAFE는 기본 모델 대비 Pass@1 을 일관적으로 상승시키고, Pass@k (특히 k = 128)에서는 최대 14 %p의 절대적 향상을 기록했다. 또한, 기존 RL VR 기반 GRPO와 비교했을 때 대규모 샘플링 효율이 현저히 우수했으며, Early Experience와 같은 경험 기반 방법보다도 더 폭넓은 행동 커버리지를 확보했다. 핵심 기여는 다음과 같다. (1) 피드백을 직접적인 행동 수정으로 연결하는 ‘피드백→경험’ 메커니즘을 도입해, 환경이 제공하는 구조적 오류 정보(컴파일 오류, 테스트 실패 메시지 등)를 활용한다. (2) 롤백·브랜칭을 통한 목표 지점 중심 탐색으로 기존 정책의 탐색 범위를 확장한다. (3) 경험 기반 교정 행동을 지도 학습으로 내재화함으로써 테스트 시 비용을 크게 절감한다. 이러한 설계는 LLM 에이전트가 단순 보상 신호에 의존하지 않고, 환경이 제공하는 풍부한 구조적 피드백을 활용해 자체적인 회복 능력을 학습하도록 만든다. 향후 연구에서는 멀티에이전트 시나리오, 비정형 피드백(이미지, 로그 파일) 및 더 복잡한 도메인에 대한 확장이 기대된다.

피드백 기반 회복 능력 학습 LEAFE 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기