초장문 질문응답을 위한 시스템2 메모리 제어 InfMem
초록
InfMem은 초장문 QA에서 증거가 산재된 문서를 효율적으로 처리하기 위해, ‘PreThink‑Retrieve‑Write’라는 3단계 제어 루프와 조기 종료 메커니즘을 도입한 시스템‑2 스타일 메모리 관리 에이전트이다. 제한된 메모리 버퍼 안에서 증거 충분성을 모니터링하고, 필요 시 문서 내부를 목표 기반으로 재검색하여 핵심 단서를 확보한 뒤, 증거‑인식 압축을 통해 메모리를 갱신한다. SFT‑to‑RL 학습 파이프라인을 통해 행동(검색·쓰기·정지)과 최종 정답 정확도를 정렬시켰으며, 32k‑1M 토큰 규모의 벤치마크에서 기존 MemAgent 대비 8‑12%p 향상과 평균 3.9배 빠른 추론을 달성했다.
상세 분석
InfMem은 기존 스트리밍 기반 장문 QA 에이전트가 “수동적 압축”에 머무르는 한계를 인지하고, 인간의 이중 과정 이론에서 차용한 시스템‑2 제어를 구현한다. 핵심은 PreThink 단계에서 현재 메모리(mₜ₋₁)와 질문(q)을 입력으로 증거 충분성을 판단하고, ‘STOP’ 혹은 ‘RETRIEVE’ 행동을 선택한다는 점이다. 행동 선택은 구조화된 튜플(aₜ, uₜ, kₜ) 형태로 출력되며, 여기서 aₜ는 행동, uₜ는 동적 검색 질의, kₜ는 검색할 단위 수를 의미한다.
‘RETRIEVE’ 단계에서는 사전에 문서를 파라그래프 수준으로 인덱싱한 fine‑grained 단위 {pⱼ}에 대해 전역 검색을 수행한다. 이는 단순히 현재 스트리밍 청크(cₜ)만을 보는 것이 아니라, 과거·미래 어느 위치든 필요한 증거를 즉시 끌어올 수 있게 해준다. 검색 결과는 rₜ라는 압축된 텍스트 블록으로 결합된다.
‘WRITE’ 단계는 q, mₜ₋₁, cₜ, rₜ를 모두 고려해 증거‑인식 공동 압축을 수행한다. 여기서는 중요한 ‘브리징 팩트’를 식별하고, 메모리 버퍼(M) 크기 제한 내에서 가장 가치 있는 토큰을 선택적으로 보존한다. 이 과정은 기존의 단순 ‘덮어쓰기’와 달리, 증거 간 연결 고리를 유지하도록 설계된 것이 특징이다.
학습 측면에서는 두 단계 파이프라인을 채택한다. 첫 번째 SFT 단계에서는 강력한 교사 모델(Qwen‑3‑32B 등)로부터 프로토콜‑일관적인 트레이스(PreThink‑Retrieve‑Write 순서)를 증류한다. 여기서는 행동이 유효한 경우에만 토큰을 마스크하고, 정답이 맞는 트레일만을 필터링해 학습 효율을 높인다. 두 번째 RL 단계에서는 검증된 ‘Verifier’ 보상을 사용해 행동 정책을 미세조정한다. 보상은 최종 정답 정확도와 조기 종료 시점의 효율성을 동시에 고려해 설계되었으며, 이를 통해 에이전트가 불필요한 검색·쓰기 루프를 피하도록 유도한다.
실험에서는 Qwen‑3‑1.7B, Qwen‑3‑4B, Qwen‑2.5‑7B 백본 모델에 InfMem을 적용했으며, 32k‑1M 토큰 길이의 Ultra‑Long QA 데이터셋에서 평균 정확도 향상폭이 각각 +10.17, +11.84, +8.23 포인트였다. 또한 조기 종료 메커니즘 덕분에 추론 시간은 평균 3.9배, 최악의 경우 5.1배까지 단축되었다. 이러한 결과는 메모리 제어가 단순 압축보다 증거 보존에 더 큰 영향을 미친다는 것을 실증한다.
전반적으로 InfMem은 “증거 충분성 모니터링 → 목표 기반 재검색 → 증거‑인식 압축”이라는 명확한 제어 흐름을 통해 초장문 환경에서도 효율적이고 정확한 추론을 가능하게 만든다. 시스템‑2 제어 개념을 LLM 기반 에이전트에 적용한 최초 사례 중 하나이며, 향후 멀티‑모달·코드베이스 등 다양한 초대형 컨텍스트 작업에 확장 가능성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기