멀티모달 에이전트를 위한 장기 신경‑심볼릭 메모리 프레임워크
NS‑Mem은 에피소드·시맨틱·논리 3계층 구조와 SK‑Gen 자동 구축·유지 메커니즘, 그리고 유사도 기반 검색과 심볼릭 질의 결합의 하이브리드 검색을 통해 멀티모달 에이전트의 장기 기억을 신경‑심볼릭 방식으로 구현한다. 실험 결과, 순수 신경 메모리 대비 전체 추론 정확도가 평균 4.35% 상승하고, 제약 조건이 있는 질의에서는 최대 12.5%까지 개선되었다.
저자: Rongjie Jiang, Jianwei Wang, Gengda Zhao
본 논문은 대규모 언어 모델(LLM)의 급격한 발전이 멀티모달 환경에서 작동하는 지능형 에이전트의 등장을 촉진했지만, 이러한 에이전트가 장기적인 추론을 수행하려면 외부 메모리 시스템이 필수적이라는 점을 출발점으로 한다. 기존 멀티모달 메모리 시스템은 대부분 신경 임베딩과 벡터 기반 검색에 의존해 직관적·연관적 추론(System 1)에는 강점을 보이지만, 명시적 제약 조건을 고려한 연역적·귀납적 추론(System 2)에는 한계가 있다. 이를 보완하기 위해 저자들은 NS‑Mem이라는 장기 신경‑심볼릭 메모리 프레임워크를 제안한다.
NS‑Mem은 세 가지 핵심 구성 요소로 이루어진다. 첫째, **3계층 메모리 아키텍처**는 (1) 에피소드 레이어, (2) 시맨틱 레이어, (3) 논리 레이어로 구성된다. 에피소드 레이어는 시간 스탬프와 멀티모달 설명을 텍스트화한 원시 사건을 저장하며, 엔티티 앵커(얼굴·음성 클러스터)를 통해 동일 인물·객체를 연결한다. 시맨틱 레이어는 엔티티 중심의 추상 노드를 유지하고, 유사도 기반 강화 정책을 통해 중복을 방지하면서 지식을 집계한다. 논리 레이어는 절차적 지식을 DAG 형태의 심볼릭 구조와 이를 대표하는 신경 인덱스 벡터 쌍으로 저장한다.
둘째, **SK‑Gen**이라는 메모리 구축·유지 메커니즘이 자동으로 구조화된 지식을 추출한다. 연속적인 멀티모달 스트림에서 행동 시퀀스를 추출하고, 패턴 마이닝을 통해 빈번히 등장하는 절차를 식별한다. 식별된 패턴은 즉시 DAG로 변환되고, 해당 DAG의 임베딩은 EMA 방식을 이용해 점진적으로 업데이트된다. 이를 통해 새로운 관찰이 기존 논리 노드에 증분적으로 반영되며, 전체 메모리를 재구성할 필요가 없어진다.
셋째, **하이브리드 검색 메커니즘**은 질의를 사실형, 제약형, 절차형으로 분류하고, 해당 레이어를 우선 탐색한다. 먼저 벡터 기반 유사도 검색으로 후보 노드를 빠르게 선별한 뒤, 심볼릭 질의 함수(F)를 실행해 논리적 제약을 검증한다. 예시로 제시된 “Jack이 다음에 해야 할 일은?” 질의에서는 에피소드 레이어에서 ‘그릇이 파손됨’이라는 사실을, 논리 레이어에서 인근 상점에서 그릇을 구입하는 절차 DAG를 찾아, 실제 상황에 맞는 행동을 제안한다. 순수 벡터 검색이 ‘섞기’만 제안하는 것과 달리, NS‑Mem은 제약을 반영한 정확한 답변을 제공한다.
실험은 실제 멀티모달 추론 벤치마크(영상‑텍스트 기반 작업 계획, 로봇 조작 시나리오 등)에서 수행되었다. NS‑Mem은 전체 추론 정확도에서 평균 4.35% 상승을 보였으며, 특히 제약 조건이 명시된 질의에서는 최대 12.5%까지 큰 폭의 개선을 기록했다. 이는 신경‑심볼릭 통합이 연산 효율성을 크게 해치지 않으면서도, 시스템 2형 추론 능력을 크게 강화함을 입증한다.
논문의 주요 기여는 다음과 같다. (1) 에피소드·시맨틱·논리 3계층 구조를 통해 신경‑심볼릭 메모리를 통합하고, (2) SK‑Gen을 통해 대규모 멀티모달 스트림에서 구조화된 지식을 자동으로 추출·증분 업데이트하며, (3) 질의 유형에 따라 다중 레이어를 활용하고 심볼릭 함수를 결합한 하이브리드 검색을 제안한다.
향후 연구 방향으로는 보다 복잡한 논리 체계(예: 일차 논리, 시계열 논리)와 대규모 실시간 스트리밍 환경에서의 확장성 검증, 그리고 메모리 압축·삭제 정책을 통한 장기 저장 효율성 향상이 제시된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기