연속 잠재 추론으로 연결된 검색·생성 통합 프레임워크
초록
CLaRa는 문서를 연속적인 압축 토큰으로 변환하고, 질의 인코더와 생성기를 하나의 언어 모델 손실로 공동 학습함으로써 검색과 생성 사이의 비연속성을 해소한다. 핵심 전처리인 SCP는 질문‑답변 및 패러프레이즈 데이터를 이용해 핵심 정보를 보존하는 압축기를 사전학습한다. 차별화된 top‑k 선택을 위한 Straight‑Through 추정기로 역전파가 가능하도록 설계했으며, 실험에서 16배 압축률에서도 기존 RAG 기반 모델을 능가하는 성능을 보였다.
상세 분석
CLaRa는 기존 RAG 파이프라인이 겪는 두 가지 근본적인 문제—효율성 손실과 최적화 불일치—를 하나의 연속 잠재 공간으로 통합한다. 먼저 SCP 단계에서 2백만 개 위키피디아 문서를 대상으로 LLM(Qwen‑32B)을 이용해 단순·복합 QA와 패러프레이즈를 생성한다. 이 과정은 ‘핵심 정보 추출 → 자동 검증 → 누락 보완’의 순환을 통해 사실 일관성과 커버리지를 확보한다. 이렇게 만든 데이터는 압축기(LoRA‑Adapter 기반) 학습에 사용되며, 문서 토큰과 메모리 토큰 사이의 평균 hidden state 차이를 최소화하는 MSE 손실을 추가해 의미적 정렬을 강화한다.
압축된 문서는 고정된 메모리 토큰 집합으로 표현되며, 이는 기존 텍스트 전체를 인코딩하는 비용을 크게 절감한다. CLaRa의 핵심은 질의 인코더를 동일한 구조와 토큰 수를 갖는 쿼리 리저너(θ_qr)로 두어, 질의를 연속 벡터로 변환하고 동시에 ‘예비 답변에 필요한 키워드’를 내포하도록 학습한다. 이 질의 벡터와 압축 문서 벡터 사이의 코사인 유사도로 스코어를 계산하고, 차별화 가능한 top‑k 선택을 위해 Straight‑Through(ST) 추정기를 도입한다. ST는 소프트맥스 기반의 연속 선택(Z_soft)과 하드 선택(Z_hard)을 결합해, 전방에서는 이산적인 top‑k 동작을 유지하면서 역전파 시에는 Z_soft를 통해 미분 가능하게 만든다.
통합 손실 L_CLaRa는 단일 언어 모델링 손실(다음 토큰 예측)만을 사용한다. 생성기(θ_g)는 선택된 k개의 압축 문서와 질의 임베딩을 입력받아 답변을 생성하고, 그 로그우도는 질의 인코더와 생성기 모두에 역전파된다. 따라서 ‘어떤 문서가 답변에 기여했는가’라는 약한 신호가 직접적으로 검색 모듈에 전달되어, 별도의 라벨링 없이도 검색‑생성 목표가 정렬된다.
이론적으로 저자들은 NTP 손실이 검색 모듈에 대한 유효한 그라디언트를 제공함을 증명하고, RL 기반 샘플링 대비 gradient variance가 낮아 학습 안정성이 향상된다고 주장한다. 실험에서는 Mistral‑7B와 Phi‑4B를 기반으로 4개의 단일·다중 홉 QA 벤치마크(NaturalQuestions, HotpotQA 등)를 사용했으며, 압축 비율 16에서도 기존 텍스트 기반 RAG 모델보다 높은 정확도와 R‑Recall을 기록했다. 또한, SCP가 사전학습된 압축기 없이 단순 토큰 재구성 손실만 사용했을 때 대비 의미 보존 및 검색 효율이 크게 개선됨을 확인했다.
전체적으로 CLaRa는 (1) 문서 압축을 통해 컨텍스트 길이를 획기적으로 단축, (2) 연속 잠재 공간에서 검색‑생성을 공동 최적화, (3) 차별화 가능한 top‑k 선택으로 효율적인 역전파를 구현함으로써 RAG의 구조적 한계를 넘어서는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기