대화형 에이전트를 위한 경량 메모리 관리 ENGRAM

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ENGRAM은 대화 기록을 에피소드, 의미, 절차의 세 가지 타입으로 구분하고, 단일 라우터와 밀집 벡터 검색만으로 필요한 기억을 빠르게 찾아 LLM에 제공한다. 복잡한 그래프나 다단계 파이프라인 없이도 LoCoMo와 LongMemEval에서 토큰 사용량은 1% 수준이면서도 최고 수준의 정확도를 달성한다.

상세 분석

ENGRAM은 장기 대화 일관성을 요구하는 실제 서비스 시나리오를 목표로 설계된 메모리 프레임워크이다. 핵심 아이디어는 인간의 기억 체계에서 차용한 ‘에피소드(시간 순 사건), 의미(불변 사실·선호), 절차(작업 흐름)’의 세 가지 유형을 명시적으로 구분하고, 각 유형마다 동일한 임베딩 모델을 사용해 밀집 벡터를 생성한다는 점이다. 라우터는 입력 발화마다 3비트 마스크를 출력해 해당 발화가 어느 타입에 저장될지를 결정한다. 이 마스크는 해석 가능하고, 라우팅 로직을 간단히 교체하거나 ablation 할 수 있게 해준다.

메모리 레코드는 JSON 스키마에 따라 정형화되며, 텍스트와 타임스탬프 같은 메타데이터와 함께 임베딩이 SQLite 데이터베이스에 저장된다. 질의가 들어오면 동일한 임베딩 모델로 질의를 벡터화하고, 각 타입별로 코사인 유사도 상위 k개(논문에서는 k=20)를 추출한다. 이후 중복을 제거하고 전체 K=25개의 증거를 선택해 프롬프트에 삽입한다. 이 과정은 복잡한 재랭킹이나 외부 검색 엔진 없이도 충분히 높은 정밀도를 제공한다는 점에서 주목할 만하다.

실험에서는 LoCoMo와 LongMemEval 두 벤치마크를 사용했으며, LoCoMo에서는 다양한 질문 카테고리(단일 홉, 다중 홉, 오픈 도메인, 시간 추론)에서 기존 메모리 시스템(Mem0, MemOS, LangMem, Zep 등)보다 LLM‑as‑Judge 점수가 평균 77.5%로 최고를 기록했다. 특히 다중 홉과 오픈 도메인에서 79.8%·72.9%라는 큰 격차를 보였다. 토큰 사용량은 평균 916 토큰으로, 다른 시스템이 1500~4000 토큰을 사용하는 것에 비해 35% 이상 절감되었다. LongMemEval에서는 전체 컨텍스트 기준을 15점 위반하며, 1% 수준의 토큰만 사용해도 동일하거나 더 나은 성능을 달성했다.

복잡도 측면에서 ENGRAM은 단일 라우터·단일 검색기·SQLite라는 최소 구성 요소만으로 구현돼, 배포와 재현성이 뛰어나다. 또한 메모리 타입별 스키마가 명시적이기 때문에 디버깅과 인사이트 추출이 용이하고, 향후 외부 지식 그래프나 정책 기반 라우팅을 추가하는 확장성도 확보한다. 한계점으로는 현재 모든 타입에 동일한 임베딩 모델을 사용함으로써 타입별 특화된 표현 학습이 부족할 수 있다는 점과, SQLite 기반 저장소가 대규모 상용 서비스에서의 확장성에 제약을 줄 가능성이 있다. 향후 연구에서는 타입별 맞춤형 인코더, 분산 KV 스토어, 그리고 라우터에 강화학습 기반 정책을 적용해 메모리 관리 효율을 더욱 높일 여지가 있다.

대화형 에이전트를 위한 경량 메모리 관리 ENGRAM

초록

상세 분석

댓글 및 학술 토론

의견 남기기