에이전트 기반 클러스터링으로 작은 언어 모델 메모리 최적화

본 연구는 작은 언어 모델(SLM) 기반 에이전트가 장기 과제 수행 시 외부 메모리를 어떻게 효율적으로 관리할 수 있는지를 탐구한다. 기존의 Retrieval‑Augmented Generation(RAG) 방식은 메모리를 단일 풀에 저장하고, 질의와의 유사도만으로 검색한다. 메모리 규모가 커질수록 의미적으로 무관한 항목이 검색에 포함될 위험이 커지며, 특히 컨텍스트 길이가 짧은 SLM에게는 잡음이 크게 작용한다. 이러한 문제를 해결하고자 저자들은 **CLAG(Clustering‑based Agentic memory framework)** 를 제안한다. CLAG는 세 가지 핵심 모듈로 구성된다. 첫 번째는 **에이전트‑구동 라우팅**이다. 새로운 경험이 발생하면 SLM 라우터가 현재 존재하는 클러스터들의 프로파일(요약, 태그, 키워드)을 검토하고, 코사인 유사도 기반 상위 k 후보 클러스터를 제시한다. 이후 SLM이 최종 클러스터를 선택하고, 선택된 클러스터에 메모리를 삽입한다. 초기 단계에서는 일정량(n)의 메모리를 버퍼링해 초기 클러스터를 형성한다(콜드 스타트). 클러스터가 포화 상태에 도달하면 K‑Means 기반 분할을 수행해 자동으로 두 개의 서브클러스터로 나눈다. 두 번째는 **지역화된 진화**이다. 라우팅된 메모리는 같은 클러스터 내에서 상위 k 이웃을 찾고, SLM이 텍스트 기반 추론을 통해 인과관계·시간 순서 등을 파악해 링크를 생성한다. 필요 시 기존 메모리를 업데이트하고, 클러스터 프로파일을 최신 상태로 유지한다. 이렇게 하면 클러스터 내부는 지속적으로 자기 정제와 강화가 이루어지며, 서로 다른 주제 영역 간의 간섭을 최소화한다. 세 번째는 **두 단계 클러스터‑인식 검색**이다. 질의가 들어오면 먼저 질의 벡터와 클러스터 중심 간 거리를 계산해 후보 클러스터 집합을 만든다. 이후 SLM이 프로파일을 검토해 실제 사용할 클러스터를 선택한다(1단계). 선택된 클러스터 내부에서만 세밀한 메모리 검색을 수행한다(2단계). 이 계층적 구조는 전역 검색 시 발생할 수 있는 “의미상 타당하지만 과제와 무관한” 항목을 효과적으로 차단한다. 실험은 세 가지 QA 벤치마크(LoCoMo, HotpotQA, BioASQ)와 세 가지 SLM 백본(Llama‑3.2‑1B‑Instruct, Qwen‑0.6B, DeepSeek‑R1‑Distill‑Qwen‑1.5B)을 사용해 수행되었다. CLAG는 기존 RAG, A‑mem, MemoryOS, GAM 대비 평균 3~7%의 정확도 향상을 기록했으며, 특히 도메인 특화가 필요한 BioASQ에서 잡음에 대한 견고성이 크게 개선되었다. 계산 효율성 측면에서도 클러스터당 검색 범위가 제한되므로 전체 연산량이 감소했고, 라우팅·진화·검색 모두 동일한 SLM을 활용해 별도 모델 학습 비용이 없었다. 논문의 주요 기여는 다음과 같다. (1) 에이전트‑구동 라우팅을 통해 메모리를 의미론적으로 일관된 클러스터에 자동 배치한다. (2) 클러스터 내부에서만 진화를 수행해 주제 간 간섭을 억제하고 메모리 밀도를 높인다. (3) 두 단계 클러스터‑인식 검색으로 검색 공간을 크게 축소하고, 작은 모델의 잡음 민감성을 완화한다. 이 연구는 메모리 관리에 인간의 스키마 조직 원리를 적용함으로써, 작은 언어 모델에서도 장기 기억과 지속적인 자기 개선이 가능함을 실증한다. 향후 연구에서는 클러스터 프로파일을 메타‑프롬프트로 활용하거나, 멀티‑모달 데이터와 결합해 보다 풍부한 기억 체계를 구축하는 방향이 기대된다.

에이전트 기반 클러스터링으로 작은 언어 모델 메모리 최적화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기