- Title: EverMemOS A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning
- ArXiv ID: 2601.02163
- 발행일: 2026-01-05
- 저자: Chuanrui Hu, Xingze Gao, Zuyi Zhou, Dannong Xu, Yi Bai, Xintong Li, Hui Zhang, Tong Li, Chong Zhang, Lidong Bing, Yafeng Deng
📝 초록
이 논문에서는 대형 언어 모델(LLM) 기반 에이전트의 장기적인 일관성을 유지하기 위해 **EverMemOS**라는 통합 메모리 운영 체제를 제안합니다. EverMemOS는 단편화된 경험을 통합하여 일관되고 안정적인 지식 구조로 변환하는 세 가지 단계를 통해 장기 추론을 지원합니다.
💡 논문 해설
1. **시스템 설계:** EverMemOS는 LLM의 메모리를 저장 단위에서 경험이 조직되는 구조화된 체계로 전환시킵니다. 이는 단순히 정보를 저장하는 것이 아니라, 경험을 정리하고 통합하여 더 나은 추론이 가능하게 합니다.
혁신적인 방법: EverMemOS는 경험의 단편을 일관되고 안정적인 지식 구조로 변환하는 세 가지 단계(회상 형성, 의미 통합, 재구성 회상)를 제안합니다. 이를 통해 에이전트는 장기 추론에 필요한 정보를 효과적으로 구성할 수 있습니다.
실증적 검증: 실험 결과 EverMemOS가 다양한 장기 메모리 추론 벤치마크에서 우수한 성능을 보여주며, 이는 경험의 생명 주기를 기반으로 한 메모리 조직화 방법이 효과적임을 입증합니다.
Sci-Tube 스타일 스크립트
초급: EverMemOS는 대형 언어 모델을 사용하는 에이전트가 더 나은 추론을 할 수 있도록 돕습니다. 이를 통해 에이전트는 시간이 지나도 일관된 답변을 제공할 수 있습니다.
중급: EverMemOS는 경험을 단편화된 정보에서 의미 있는 구조로 변환하여 에이전트의 추론 능력을 향상시킵니다. 이 시스템은 세 가지 주요 단계를 거쳐 메모리를 효율적으로 관리합니다.
고급: EverMemOS는 LLM 기반 에이전트에게 장기적인 추론 능력과 일관성을 부여하기 위해 설계되었습니다. 이를 통해 에이전트는 시간이 지나도 일정한 성능을 유지하며, 다양한 유형의 정보를 효과적으로 처리할 수 있습니다.
📄 논문 발췌 (ArXiv Source)
LLM의 다양한 메모리 방법론에 대한 평가 결과 (LoCoMo와 LongMemEval 벤치마크). 모든 방법은 GPT-4.1-mini를 기반으로 합니다.
서론
대형 언어 모델(LLMs)은 일시적인 대화 도구에서 장기 상호작용 에이전트로 점점 더 많이 사용되고 있습니다. 개선된 개인화 서비스 제공을 위해 LLM 기반 에이전트는 확장된 상호작용 동안 일관된 인물과 사용자 모델을 유지하고 시간이 지나면서 새로운 제약 조건을 계속 통합해야 합니다. 이러한 도전 과제를 해결하기 위한 직접적인 접근 방법은 컨텍스트 윈도우의 확장을 통해 이루어지지만, 초장기 컨텍스트는 여전히 성능이 저하되며 (예: “중간에 사라짐” 현상) 급격한 계산 비용을 초래합니다. 그 결과 최근 연구에서는 LLMs에게 과거 정보를 저장하고 경험을 일관되고 진화하는 구조로 조직하여 장기 추론을 지원할 수 있는 메모리를 구성하는데 중점을 두고 있습니다.
최근, 다양한 메모리 확장 접근법이 제안되었습니다. 이는 검색 기반 메모리, 학습 가능한 메모리 및 최근에는 저장, 검색, 필터링, 업데이트를 통합하는 Memory Operating Systems가 포함됩니다. 그러나 장기적인 추론의 일관성을 달성하기는 여전히 어렵습니다. 이러한 방법들은 확장성과 모듈러성을 향상시켰지만 대부분 메모리를 고립된 기록들의 평면 컬렉션으로 취급합니다. 그 결과, 많은 실패는 누락된 정보보다 부족한 통합에서 비롯됩니다. 단편화된 경험들이 높은 수준의 의미 구조로 통합되지 않기 때문에 에이전트들은 관련 사실을 검색할 수 있지만 충돌을 감지하거나 안정적인 사용자 모델을 유지하거나 일관되게 추론하는 데 실패합니다. 따라서 기존 메모리 방법의 주요한 한계는 단편화된 회상 경험을 장기 추론에 필요한 일관되고 안정적인 지식 구조로 변환하는 명시적 메커니즘의 부재입니다.
이 위의 제약 사항을 해결하기 위해, 우리는 EverMemOS를 제안합니다. 이는 장기 LLM 기반 에이전트를 위한 동적인 생명 주기를 모델링하는 통합하고 제품 준비형 Memory Operating System입니다. Figure 1에서 보듯이 EverMemOS는 실험 평가에서 LLMs의 최신 메모리 방법론보다 상대적으로 9.2%와 6.7% 더 높은 정확도를 보여주며, 가장 강력한 베이스라인 방법에 비해 LoCoMo와 LongMemEval에서 우수한 성능을 나타냅니다.
EverMemOS는 세 가지 단계를 통해 분산된 회상 경험을 장기 추론을 지원하는 일관되고 안정적인 지식 구조로 변환합니다. 첫째, 회상 형성 단계에서는 무제한 상호작용 기록을 이산적이고 안정적인 메모리 트레이스(MemCells)로 변환합니다. 둘째, 의미 통합 단계에서는 MemCells를 일관되게 집계할 수 있는 안정된 장면 수준 구조 (MemScenes)로 변환하여 상호작용을 통해 일관된 사용자 프로필을 유지하는 것을 지원합니다. 마지막으로, 재구성 회상 단계는 필요하고 충분한 기반 위에 구성된 지시어만을 활성적으로 조합하고 장기 추론을 지원하며, 모든 관련 레코드를 무차별하게 검색하는 대신 필요한 문맥만을 제공합니다.
EverMemOS는 신경 수준의 생물학적 메모리를 시뮬레이션하기 위한 것이 아닙니다. 대신, 그는 생물학적 기억 체계에서 조직 원칙을 빌려 이를 계산적 프레임워크로 전환합니다. Figure 2은 EverMemOS의 직관을 설명하고 있습니다. 단편 기반 시스템은 사용자의 IPA 선호도를 기억하여 알코올 음료를 추천할 수 있지만, 사용자가 항생제를 복용 중이라는 새로운 제약 조건을 고려하지 못합니다. 반면에 EverMemOS는 이러한 경험들을 통합적인 표현으로 변환하여 에이전트가 안전하게 비알코올 대체품을 추천하는 것을 가능하게 합니다.
기여 요약:
시스템 설계: 우리는 LLMs의 메모리를 생명 주기로 재개념화하고, 기록의 패시브 저장에서 체계적인 경험 조직으로 전환시키는 통합되고 제품 준비형 Memory Operating System인 EverMemOS를 소개합니다.
혁신적인 방법: 우리는 단편화된 회상 경험을 장기 추론을 지원하는 일관되고 안정적인 지식 구조로 변환하는 세 가지 단계의 방법을 제안합니다.
실증적 검증: 실험 결과는 EverMemOS가 여러 장기 컨텍스트 벤치마크에서 메모리 증강 추론에 대한 최신 성능을 달성함으로써 생명 주기를 기반으로 한 메모리 조직화의 효과성을 입증합니다.
style="width:45.0%" />
대화 상호작용 시나리오에서 일반적인 단편 기반 메모리와 EverMemOS의 비교.
관련 연구
LLMs의 메모리 메커니즘
컨텍스트 윈도우 확장. 대형 언어 모델(LLMs)은 고정 길이 컨텍스트 윈도우에 제약을 받습니다. 이전 작업에서는 희소 주의, 재귀, 및 길이 외삽 등을 통해 컨텍스트를 확장합니다. 그러나 더 긴 컨텍스트는 효율적인 활용을 보장하지 않습니다: “중간에 사라짐” 현상은 여전히 존재하며, 컨텍스트 확장을 단독으로 사용하는 것이 지속 가능한 메모리를 위해 충분하지 않다는 것을 시사합니다.
검색 강화 및 파라미터 메모리. 검색 강화 생성(RAG)은 외부 메모리 저장을 통해 윈도우 제한을 완화하지만, 신뢰성은 검색 품질에 크게 의존합니다. 파라미터 방식은 정보를 내부화하지만 종종 잊어버림과 불안정성을 겪습니다. 하이브리드 접근법은 이러한 문제를 완화하지만 지속 가능한 메모리를 위한 통일된 조직 원칙을 제공하지 못합니다.
메모리 시스템
초기 계산적 메모리. 초기 미분 가능한 메모리 시스템(예: NTM/DNC/키-값 메모리)은 외부 메모리 상호작용을 도입했지만, 현대의 자동 회귀 LLMs에 적합하지 않으며 확장성이 좋지 않습니다.
LLM 에이전트의 메모리. LLM 기반 에이전트가 진화함에 따라 메모리 시스템은 지속적인 상태 통합으로 이동하였습니다. 최근 시스템은 회상, 의미, 계층적 작업 메모리를 도입했습니다. 그러나 많은 설계는 여전히 단편화된 텍스트 유닛과 제한된 통합을 사용하여 장기 추론 성능이 저하될 수 있습니다.
메모리 운영 체제. 최근 연구에서는 메모리 관리를 시스템 레벨 런타임으로 정식화했습니다. 일부는 생명 주기와 용량에 초점을 맞추며, 예를 들어 Nemori의 예측 기반 업데이트나 MemoryOS의 계층적 제어가 있습니다. 다른 시스템은 지식 그래프를 통해 구조화된 사실 유지에 중점을 둡니다 (예: Mem0, Zep)와 MemOS는 메모리 유형 간 통합 스케줄링을 목표로 합니다.
이러한 시스템들은 구조적 조직을 발전시켰지만, 주로 “저장 최적화"나 “사실 유지"에 초점을 맞추고 있습니다. EverMemOS는 세 단계 메모리 생명 주기를 구현하여 회상 추적이 합성된 의미 구조를 통해 장기 추론을 지원함으로써 독특합니다.
EverMemOS
프레임워크 개요
생물학적 engram 생명 주기에 영감을 받아, EverMemOS는 세 단계 워크플로우(Figure 3)를 따릅니다. (1) 회상 형성은 상호작용 스트림을 MemCells으로 인코딩합니다; (2) 의미 통합은 MemCells를 MemScenes로 조직하고 사용자 프로필을 업데이트합니다; 그리고 (3) 재구성 회상은 필요와 충분함의 원칙에 따라 MemScene 지침으로 검색을 수행합니다.
style="width:93.0%" />
EverMemOS 워크플로우는 engram에서 영감 받은 메모리 생명 주기를 반영합니다: (1) **회상 형성** 단계에서는 지속적인 대화를 *MemCells*로 분할하고, 사건, 원자적 사실 및 유효 기간을 가지고 있습니다. (2) **의미 통합**은 MemCells를 *MemScenes*로 조직하고 사용자 프로필을 업데이트합니다. (3) **재구성 회상** 단계에서는 필요와 충분함의 원칙에 따라 *MemScene* 지침으로 검색을 수행하여 필요한 문맥을 구성합니다.
메모리 기본 요소
EverMemOS의 핵심에는 MemCell이 있습니다. 이는 저수준 데이터와 고수준 의미를 연결하는 원자 단위입니다. 정확히 말하면, MemCell $`c`$은 튜플 $`c = (E, \mathcal{F}, P, M)`$으로 구성되며:
$`E`$ (회상): 사건의 간결한 제3자의 서술로, 의미적 앵커 역할을 합니다.
$`\mathcal{F} = \{f_1, \dots, f_n\}`$ (원자적 사실): $`E`$에서 파생된 이산적이고 검증 가능한 진술들입니다.
$`P`$ (예지) : 유효 기간 $`[t_{start}, t_{end}]`$를 갖는 전방 추론(예: 계획 및 일시적인 상태)을 지원합니다.
$`M`$ (메타데이터): 타임스탬프와 소스 포인터 등 문맥 기반 지정을 포함합니다.
이 구조는 메모리를 정적 기록($`E, \mathcal{F}`$)에서 시간 상의 근거를 갖춘 표현으로 바꾸며 예지 ($`P`$)도 지원합니다.
단계 1: 회상 형성
engram 개념에 근거한 이 첫 번째 단계에서는 무제한 상호작용 기록 $`\mathcal{D}=\{d_1,\ldots,d_T\}`$를 이산적이고 안정적인 메모리 추적(MemCells)으로 변환합니다. 이 과정은 잡음이 있는 상호 작용 데이터에서 의미 신호를 정제하기 위한 세 단계 파이프라인을 채택합니다:
컨텍스트 분할
연속 스트림을 이산화하기 위해 의미 경계 검출기가 슬라이딩 윈도우로 상호작용을 처리합니다. 주제 변화를 감지하면, 축적된 턴은 원시 회상 기록으로 캡슐화됩니다. 우리는 이 단계를 LLM 프롬프팅을 통해 구현하며, 경계 검출이 완벽하지는 않지만, 하류 평가에서 견고함을 보여줍니다 (표 1 참조).
서사 합성
대화의 중복과 모호성을 해결하기 위해 회상 기록은 고감도 회상 ($`E`$)으로 합성됩니다. 이 재작성 과정은 공백을 해석하고 안정적인 의미적 앵커를 설정하는 간결한 제3자 서술을 생성합니다.
구조 파생
$`E`$에서 시스템은 정확한 매칭을 위한 원자적 사실 ($`\mathcal{F}`$)을 추출하고 유효 기간 $`[t_{start}, t_{end}]`$를 갖는 예지 신호($`P`$)를 생성합니다 (예: 일시적인 “감기"와 영구적인 “졸업"을 구분). 구체적으로, 우리는 LLM이 재작성된 회상 $`E`$에 대해 제약된 스키마의 원자적 사실과 유효 기간 $`[t_{start}, t_{end}]`$를 갖는 예지 신호를 출력하도록 프롬프트를 제공합니다. 이러한 구성 요소는 메타데이터 $`M`$와 함께 최종 MemCell $`c`$를 형성합니다.
단계 2: 의미 통합
시스템 통합에 영감을 받아, EverMemOS는 메모리를 고차 구조로 조직하는 온라인 메커니즘을 사용하여 일시적인 회상에서 안정된 장기 지식으로 전환합니다.
증분적 의미 클러스터링
EverMemOS는 메모리를 동적으로 조직합니다. 새로운 MemCell $`c`$가 도착하면, 시스템은 그 임베딩을 계산하고 가장 가까운 MemScene 중심점을 검색합니다. 유사성이 임계값 $`\tau`$를 초과할 경우 $`c`$는 흡수되고 장면 표현이 증분적으로 업데이트됩니다; 그렇지 않은 경우 새로운 MemScene이 인스턴스화됩니다. 이 온라인 과정은 배치 재처리 없이 실시간에서 주제 구조를 유지합니다.
장면 기반 프로필 진화
장면 수준의 통합은 또한 집계된 증거로부터 압축된 사용자 프로필을 업데이트할 수 있습니다. 새로운 MemCell이 특정 MemScene에 흡수되면, EverMemOS는 장면 요약과 사용자 프로필을 갱신합니다 (개별 턴 대신 이러한 요약에 대해 프롬프팅). 이는 안정적인 성격을 일시적인 상태로부터 분리하는 데 도움이 됩니다. 우리는 시간에 따른 변화와 충돌 추적(부록 7.3)과 함께 장면 요약에서 온라인으로 갱신되는 명시적인 사실 (시간 변동 측정 포함) 및 암묵적 성격을 유지합니다.
단계 3: 재구성 회상
재구성 기억 이론에 근거하여, EverMemOS의 검색은 정적 조회가 아니라 필요와 충분함의 원칙을 기반으로 하는 활성 재구성 과정입니다. 지시어 $`q`$를 주면, EverMemOS는 MemScenes에 근거한 행동적인 검색을 수행합니다.
MemScene 선택
우리는 모든 MemCells의 원자적 사실 $`\mathcal{F}`$에 대해 밀도와 BM25 검색을 결합하여 Reciprocal Rank Fusion (RRF)을 통해 질의와의 관련성을 계산합니다. 그런 다음 각 MemScene은 구성 요소 MemCells 중 가장 높은 관련성 점수를 갖는 것으로 측정되어 가장 높은 점수를 받은 MemScenes의 소규모 집합이 선택됩니다.
회상 및 예지 필터링
선택된 MemScenes 내에서 구성 요소 MemCells로부터 에피소드를 모아 하류 추론을 위한 컴팩트 세트로 재순위 지정합니다. 그런 다음 유효 기간 $`[t_{start}, t_{end}]`$가 만족되는 시간 유효 예지만 유지하고 (만료된 것들을 제거) 예지 필터링을 수행합니다.
행동적 검증 및 질의 재작성
검색된 문맥은 LLM 기반 검증기로 충분성을 평가받습니다. 충분하지 않다고 판단되면, 시스템은 추가적인 검색을 위한 질의 재작성 단계를 트리거하며, 그렇지 않으면 하류 모듈에 문맥이 전달됩니다. 프롬프트 템플릿은 부록 8.1에서 제공됩니다.
작업 모드
우리는 동일한 검색 파이프라인을 공유하는 두 가지 하류 설정을 고려합니다: 메모리 증강 추론과 메모리 증강 대화. 추론에서는 검색된 회상들을 벤치마크 평가를 위한 문맥으로 사용합니다. 대화에서는 구성된 문맥이 추가적으로 사용자 프로필과 시간 유효 예지 신호(현재 시간 $`t_{now}\in[t_{start}, t_{end}]`$에 의해 필터링됨)를 포함하며, 이러한 기능은 현재 추론 벤치마크에서 커버되지 않으므로 양적 사례 연구로 제공됩니다.
실험
EverMemOS는 두 가지 장기 메모리 증강 추론 벤치마크 (LoCoMo 및 LongMemEval)에서 평가하고, PersonaMem-v2에 대한 프로필 연구를 보고합니다.
실험 설정
벤치마크
우리는 LoCoMo와 LongMemEval에서 메모리 증강 추론을 평가합니다. LoCoMo는 10개의 초장기 대화(각각 약 9,000 토큰)에 대한 1,540개의 질문으로 구성되며 단일 경로, 다중 경로 및 시간 관련 질문을 포함합니다.