시간 지식 그래프 메모리로 부분 관찰 환경을 정복한다
초록
부분 관찰 환경에서 에이전트가 장기 기억을 유지하려면 시간 정보를 포함한 구조화된 메모리가 필요하다. 저자들은 방 구조와 객체 이동을 RDF 지식 그래프로 숨은 상태로 표현하고, 에이전트가 관찰을 RDF‑star 형식의 시간 한정자(time_added, last_accessed, num_recalled)와 함께 저장하도록 설계한 TKG 메모리 모델을 제안한다. 심볼릭 업데이트 규칙을 적용한 여러 베이스라인과 LSTM·Transformer 기반 시퀀스 모델을 비교했으며, 동일한 환경·질문 조건에서 심볼릭 TKG 에이전트가 테스트 정확도에서 약 4배 우수함을 보였다.
상세 분석
본 논문은 부분 관찰(Partially Observable) 환경에서 에이전트가 어떻게 지속적인 기억을 구축하고 활용할 수 있는지를 체계적으로 탐구한다. 핵심 아이디어는 세계의 숨은 상태와 에이전트의 장기 기억을 모두 RDF 기반의 지식 그래프(KG)로 표현한다는 점이다. 이를 위해 저자들은 “Room Environment v3”라는 결정론적이고 완전히 구성 가능한 그리드 월드를 설계했으며, 방, 벽, 정적·동적 객체, 그리고 에이전트 자체를 모두 IRI(Internationalized Resource Identifier)로 명명한 RDF 트리플 집합으로 모델링하였다. 특히 내부 벽의 온·오프 상태와 객체의 이동 규칙을 주기적인 스케줄로 정의함으로써, 환경은 무한히 복잡하지만 완전히 재현 가능한 동적 그래프를 생성한다.
에이전트는 매 타임스텝 현재 위치한 방과 인접 방, 그리고 방 안에 존재하는 객체들의 RDF 트리플을 관찰(o_t)로 받는다. 이 관찰을 그대로 메모리로 저장하는 것이 아니라, RDF‑star 형식의 임베디드 트리플에 세 가지 시간 한정자(time_added, last_accessed, num_recalled)를 부착해 “Temporal Knowledge Graph”(TKG) 형태의 장기 기억을 만든다. time_added는 해당 사실이 처음 메모리에 삽입된 시점을, last_accessed는 가장 최근에 조회된 시점을, num_recalled는 해당 사실이 질문에 사용된 횟수를 기록한다. 이러한 메타데이터는 메모리 용량 제한 상황에서 재현(eviction) 정책을 설계하는 근거가 된다. 예를 들어, 가장 오래된(time_added가 가장 작은) 혹은 가장 적게 사용된(num_recalled가 최소) 트리플을 우선 삭제하는 LFU/LRU 전략을 손쉽게 구현할 수 있다.
베이스라인으로는 (1) 심볼릭 TKG 에이전트: deterministic update 규칙과 위의 한정자를 활용해 삽입·삭제·갱신을 수행하고, SPARQL‑like 질의 엔진으로 현재 질문에 답한다. (2) 용량 제한이 없는 완전 메모리 버전: 모든 관찰을 무조건 저장해 메모리 오버플로우가 없는 이상적인 상황을 측정한다. (3) 두 개의 신경망 기반 시퀀스 모델(LSTM, Transformer): 동일한 관찰 시퀀스를 고정 길이 버퍼에 순차적으로 저장하고, 내부 은닉 상태를 통해 질문을 예측한다. 신경망 모델은 명시적인 KG 구조를 사용하지 않으며, 메모리 관리가 암묵적인 가중치 업데이트에 의존한다.
실험은 두 개의 레이아웃(학습용, 테스트용)에서 수행되었다. 두 레이아웃은 동일한 방·벽·객체 스케줄을 공유하지만, 질문 순서가 다르게 배치되어 있어 일반화 능력을 직접 평가한다. 결과는 다음과 같다. (1) TKG 에이전트는 메모리 용량이 제한된 상황에서도 질문 정확도가 70% 이상 유지되었으며, 용량이 충분할 때는 90%에 육박했다. (2) LSTM과 Transformer는 학습 레이아웃에서는 5560% 수준이었지만, 테스트 레이아웃에서는 1520%로 급격히 하락했다. (3) 시간 한정자를 사용한 TKG는 메모리 업데이트와 질의 응답이 더 안정적이며, 특히 “last_accessed”를 활용한 최근성 기반 삭제가 성능 변동을 최소화했다.
이러한 결과는 (a) 명시적인 그래프 구조와 시간 메타데이터가 부분 관찰 환경에서 장기 기억을 효율적으로 관리한다는 점, (b) 신경망 기반 순차 메모리는 구조적 정보를 놓치기 쉬워 일반화에 취약함을 보여준다. 또한, RDF‑star를 이용한 경량화된 시간 어노테이션은 구현 복잡도 없이도 강력한 메모리 관리 정책을 제공한다는 실용적 장점이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기