LLM 에이전트를 위한 효율적인 평생 메모리 프레임워크 SimpleMem

LLM 에이전트를 위한 효율적인 평생 메모리 프레임워크 SimpleMem
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SimpleMem은 LLM 에이전트가 장기 대화에서 발생하는 방대한 상호작용 기록을 의미 있게 압축·구조화하여, 토큰 사용량을 크게 줄이면서도 추론 정확도를 높이는 3단계 메모리 파이프라인을 제안한다. 의미 기반 구조 압축, 온라인 의미 합성, 의도 인식 검색 계획을 결합해 LoCoMo 벤치마크에서 F1 26.4% 향상과 토큰 소비 30배 감소를 달성하였다.

상세 분석

SimpleMem은 기존 메모리 설계의 두 가지 근본적인 한계를 동시에 해결한다. 첫 번째는 “전체 컨텍스트 확장” 방식으로, 대화 전체를 그대로 저장해 토큰 비용과 중복 정보를 급증시키는 문제다. 두 번째는 “반복 추론 기반 필터링” 방식으로, 매 질의마다 LLM을 재사용해 노이즈를 제거하지만 연산 비용이 비례적으로 증가한다. SimpleMem은 이를 “의미 손실 없는 압축”이라는 새로운 관점으로 재구성한다.

  1. Semantic Structured Compression (의미 구조 압축)

    • 입력 대화를 고정 길이 슬라이딩 윈도우(길이 20)로 분할하고, 각 윈도우를 LLM에게 “의미 밀도”를 평가하도록 지시한다. 이때 별도 이진 분류기가 아니라 LLM 자체가 생성형 필터 역할을 수행해, 의미가 거의 없는 구간은 빈 집합(∅)을 반환함으로써 자동 폐기한다.
    • 의미가 풍부한 윈도우는 하나의 통합 변환 함수 Fθ 를 통해 핵심 지시어 추출, 코어퍼런스 해결, 시간 정규화를 동시에 수행한다. 결과는 독립적인 메모리 유닛 mk 으로 전환되며, 각 유닛은 “사실 진술” 형태로 정형화된다.
    • 이렇게 생성된 유닛은 다중 뷰 인덱싱(밀집 의미 임베딩, 역색인 기반 레키컬 벡터, 구조화 메타데이터)으로 저장돼, 이후 검색 단계에서 다양한 신호를 활용할 수 있다.
  2. Online Semantic Synthesis (온라인 의미 합성)

    • 기존 시스템이 백그라운드에서 배치 정리를 수행하던 것과 달리, SimpleMem은 쓰기 단계에서 실시간으로 유사 유닛을 통합한다. 예를 들어 “사용자는 커피를 원한다”, “오트밀크를 선호한다”, “뜨겁게 마시고 싶다”와 같은 세 문장을 하나의 고차원 진술 “사용자는 뜨거운 오트밀크 커피를 선호한다”로 합성한다.
    • 이 과정은 Fsyn 함수에 의해 구현되며, 현재 대화 컨텍스트 C 와 새로운 관찰 Osession 을 입력받아 압축된 메모리 엔트리를 반환한다. 결과적으로 메모리 토폴로지는 지속적으로 고밀도·저중복 상태를 유지한다.
  3. Intent‑Aware Retrieval Planning (의도 인식 검색 계획)

    • 질의 q 와 히스토리 H 를 입력으로 LLM이 검색 계획 P를 생성한다. 계획은 (q_sem, q_lex, q_sym, d) 형태로, 각각 의미, 레키컬, 심볼릭 검색을 위한 변형 질의와 예상 검색 깊이 d 를 제공한다.
    • 검색 깊이 d 에 따라 각 뷰별 반환 개수 n 을 동적으로 조정하고, Top‑n 결과를 동시 다중 뷰 방식으로 추출한다. 의미 뷰는 코사인 유사도, 레키컬 뷰는 BM25, 심볼릭 뷰는 메타데이터 필터링을 이용한다.
    • 최종 컨텍스트 Cq 는 세 결과 집합의 합집합 + 중복 제거로 구성돼, 토큰 사용량을 최소화하면서도 가장 관련성 높은 정보를 제공한다.

실험적 검증에서는 LoCoMo와 LongMemEval‑S 두 벤치마크를 사용했다. 다양한 백본 모델(GPT‑4o, GPT‑4.1‑mini, Qwen‑Plus 등)에서 SimpleMem은 모든 기준선(READ‑AGENT, MEM‑BANK, MEMGPT, A‑MEM, LIGHT‑MEM, MEM0 등)을 앞섰다. 특히 GPT‑4.1‑mini 기준으로 LoCoMo에서 평균 F1 = 43.24, 토큰 비용은 전체 컨텍스트 방식 대비 30배 절감했다. 복합적인 다중‑홉 및 시간 추론에서도 높은 정확도를 유지했으며, 어드버설 디스트랙터에 대한 강인성도 입증했다.

핵심 기여는 (1) 의미 기반 손실 없는 압축을 통한 고밀도 메모리 유닛 생성, (2) 실시간 온라인 합성으로 메모리 파편화 방지, (3) LLM 기반 의도 추론을 활용한 동적 검색 범위 조정이다. 이 세 축은 각각 토큰 효율성, 메모리 일관성, 검색 정확도에 직접적인 영향을 미쳐, 기존 “전체 저장” 혹은 “반복 추론” 패러다임을 뛰어넘는 균형 잡힌 성능‑효율 트레이드오프를 제공한다. 앞으로는 메모리 압축 손실을 정량화하거나, 멀티‑모달(이미지·음성) 데이터에 대한 확장 가능성을 탐색하는 것이 자연스러운 다음 단계가 될 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기