에피소드 기억과 반사 학습을 통한 대형 언어 모델의 지속적 적응 메커니즘
본 연구는 에피소드 기억과 강화학습을 결합한 대형 언어 모델(LLM) 에이전트의 지속적·경험 기반 학습을 이론적으로 탐구한다. 모델 파라미터를 미세조정하지 않고도 미래 행동을 설계할 수 있게 하는 핵심 메커니즘으로 ‘반사’를 규정한다. Memento와 23 데이터셋에서 수행한 실험은 에피소드 기반의 경험‑주도 반사가 다양한 개방형·장기 과제에서 일반화된 적
초록
본 연구는 에피소드 기억과 강화학습을 결합한 대형 언어 모델(LLM) 에이전트의 지속적·경험 기반 학습을 이론적으로 탐구한다. 모델 파라미터를 미세조정하지 않고도 미래 행동을 설계할 수 있게 하는 핵심 메커니즘으로 ‘반사’를 규정한다. Memento와 23 데이터셋에서 수행한 실험은 에피소드 기반의 경험‑주도 반사가 다양한 개방형·장기 과제에서 일반화된 적응을 가능하게 함을 보여준다. 이를 바탕으로 에이전트가 에피소드 기억을 유지하고 ‘쓰기(정책 평가)’와 ‘읽기(정책 개선)’ 두 핵심 연산을 수행하도록 하는 상태 기반 반사 의사결정 과정(SRDP)을 제안한다. SRDP는 기억을 제어‑이론적 객체로 모델링해 고전 강화학습 분석에 적용할 수 있다. 우리는 소프트 정책 반복에 검색을 통합한 읽기‑쓰기 반사 학습을 구현하고 수렴을 보장한다. 기억이 충분히 확장되어 상태공간을 밀집하게 커버하면 복합 정책이 최적해에 수렴함을 정리로 제시한다. 이 프레임워크는 사례 기반 추론·검색 강화 생성과 같은 휴리스틱 접근을 원칙‑기반 강화학습과 통합해, 지속적이고 범용적인 학습이 가능한 반사적 기억 내장 LLM 에이전트를 설계하기 위한 수학적 토대를 제공한다.
상세 요약
이 논문은 최근 LLM이 단순히 사전 학습된 파라미터만으로 정적인 추론을 수행한다는 전통적 관점을 탈피한다. 저자들은 ‘반사(reflection)’라는 개념을 도입해, 에이전트가 과거 상호작용을 에피소드 형태로 저장하고, 필요 시 이를 검색·재활용함으로써 정책을 실시간으로 개선할 수 있음을 보인다. 핵심 아이디어는 두 가지 연산, 즉 ‘쓰기(write)’와 ‘읽기(read)’이다. 쓰기는 현재 행동의 결과를 메모리에 기록함으로써 정책 평가 단계와 동일시되고, 읽기는 저장된 사례 중 현재 상황과 가장 유사한 것을 찾아 정책 개선 단계에 활용한다. 이러한 메모리 기반 연산을 상태 기반 반사 의사결정 과정(SRDP)이라는 형식적 모델로 추상화함으로써, 기존 강화학습 이론—특히 소프트 정책 반복(soft policy iteration)—에 직접 적용할 수 있다.
논문은 이론적 수렴성을 두 가지 관점에서 증명한다. 첫째, 읽기‑쓰기 연산이 확률적 정책 업데이트와 동일한 수학적 구조를 가지므로, 기존 강화학습 수렴 결과를 그대로 차용할 수 있다. 둘째, 메모리가 충분히 풍부해져 상태공간을 조밀히 커버하면, 에피소드 기반 정책이 최적 정책에 점근적으로 수렴한다는 정리를 제시한다. 이는 메모리 용량과 커버리지가 학습 성능을 결정하는 새로운 ‘학습 자원’으로 작용한다는 의미다.
실험적으로는 Memento와 23이라는 두 개의 복합 환경을 사용했으며, 두 환경 모두 장기 의사결정과 개방형 목표를 포함한다. 결과는 전통적인 파라미터 미세조정 방식보다 에피소드 기반 반사가 더 빠르고 안정적인 적응을 보여줌을 확인한다. 특히, 에이전트가 배포된 후에도 지속적으로 새로운 상황에 맞춰 정책을 수정할 수 있다는 점은 학습‑테스트 경계가 흐려지는 새로운 패러다임을 제시한다.
이 연구는 사례 기반 추론(case‑based reasoning)과 검색 강화 생성(retrieval‑augmented generation) 같은 기존 휴리스틱 기법을 강화학습의 엄격한 프레임워크 안에 통합한다는 점에서 학문적·실용적 가치를 가진다. 앞으로는 메모리 관리 전략(예: 샘플링, 삭제 정책)과 메타‑리플렉션(다중 단계 추론) 등을 확장해, 보다 복잡한 멀티‑에이전트 혹은 인간‑에이전트 협업 시나리오에 적용할 가능성이 열려 있다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...