기억 네트워크와 장기 기억 활용 질문응답 모델

이 논문은 장기 기억을 명시적으로 읽고 쓸 수 있는 신경망 구조인 “Memory Networks”(이하 기억 네트워크)를 제안한다. 기존 RNN·LSTM 등 순환 신경망은 은닉 상태에 정보를 압축 저장하지만, 메모리 용량이 제한적이고 과거 정보를 정확히 보존하기 어렵다. 이를 보완하기 위해 저자는 네 개의 모듈(I, G, O, R)로 구성된 프레임워크를 설계한다. I 모듈은 입력 데이터를 특징 벡터로 변환한다. 텍스트 입력의 경우 bag‑of‑words 혹은 임베딩을 사용해 Φ_x, Φ_y 라는 고차원(3 |W|) 벡터를 만든다. G 모듈은 변환된 입력을 메모리 슬롯에 저장한다. 가장 간단한 형태는 H(x)라는 슬롯 선택 함수에 따라 새로운 슬롯에 그대로 저장하는 것이며, 더 복잡한 형태는 기존 슬롯을 업데이트하거나 “잊어버리는” 정책을 구현한다. O 모듈은 질문과 메모리 내 모든 문장 사이의 유사도를 점수 s_O 로 계산해 가장 관련성이 높은 k개의 지원 문장을 선택한다. k=1이면 단일 지원 문장을, k=2이면 첫 번째 지원 문장을 이용해 두 번째 지원 문장을 다시 검색하는 2‑hop 방식이 된다. 점수 함수는 Φ_x·U^T·U·Φ_y 형태의 내적이며, U는 학습 가능한 매개변수이다. R 모듈은 선택된 지원 문장들을 기반으로 최종 응답을 만든다. 가장 단순히 지원 문장 자체를 반환하거나, 단어 수준에서 가장 높은 점수를 받은 단어를 선택한다. 더 복잡한 경우에는 RNN을 이용해 자유 형태 문장을 생성한다. 효율성을 위해 두 가지 해시 기법을 도입한다. 첫 번째는 입력 문장의 단어와 동일한 단어를 포함하는 메모리만 평가하는 단어 해시이며, 두 번째는 학습된 임베딩을 K‑means 로 클러스터링해 클러스터 번호를 버킷으로 사용하는 임베딩 해시이다. 이를 통해 메모리 규모가 수천~수만 개에 달해도 실시간 추론이 가능하도록 만든다. 시간 정보를 활용하는 방법으로는 메모리 슬롯의 쓰기 순서를 특징으로 추가한다. 세 개의 이진 특징(입력이 슬롯보다 오래됐는가 등)을 Φ_t에 포함시켜 s_O_t 를 정의하고, 이를 통해 오래된 정보와 최신 정보를 구분하며 순차적 추론을 가능하게 한다. 연속적인 단어 스트림을 처리하기 위해 세그멘테이션 모듈을 설계했다. 아직 구분되지 않은 단어 시퀀스를 bag‑of‑words 로 표현하고, 선형 분류기 W_seg·U_seg·Φ_seg 로 “세그먼트 경계”를 판단한다. 경계가 감지되면 해당 시퀀스를 메모리에 저장하고 이후 단계와 동일하게 진행한다. 새로운 어휘에 대한 일반화는 각 단어의 좌·우 컨텍스트를 별도 bag‑of‑words 로 저장하고, 학습 시 일정 비율(p)로 해당 단어를 “보지 못한” 상태로 가정해 컨텍스트만으로 임베딩을 추정하는 방식으로 구현한다. 실험은 두 가지 데이터셋을 사용했다. 첫 번째는 대규모 사실 기반 QA(예: bAbI)이며, 두 번째는 시뮬레이션 세계에서 생성된 복합 추론 태스크이다. 기본 모델(k=2, 단일 단어 응답)만으로도 기존 RNN·LSTM 기반 모델보다 높은 정확도를 달성했으며, 해시와 시간 특징을 추가한 변형은 메모리 규모가 크게 늘어나도 성능 저하 없이 빠른 추론을 가능하게 했다. 특히, “우유를 어디에 두었는가”와 같은 질문에 대해 “Joe가 우유를 남겼다 → Joe가 사무실에 갔다”라는 두 단계의 사건을 연결해 정답을 도출하는 능력을 입증했다. 한계점으로는 메모리 슬롯이 고정된 크기이며, 슬롯 교체 정책이 구현되지 않았고, 현재 구현이 bag‑of‑words 기반이라 어순·구문 정보를 충분히 활용하지 못한다는 점이 있다. 향후 연구에서는 G·O·R 모듈을 더 깊은 신경망으로 확장하고, 어텐션 메커니즘과 비선형 변환을 도입해 복잡한 언어 구조와 대규모 지식 베이스를 효율적으로 다루는 방향이 제시된다.

기억 네트워크와 장기 기억 활용 질문응답 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기