공유 컨텍스트 기반 유틸리티 기반 검색기 학습
초록
SCARLet은 공유 컨텍스트를 만든 뒤, 퍼트루베이션 기반 귀속 방식을 이용해 각 패시지의 유틸리티를 정량화하고, 이를 바탕으로 긍정·부정 샘플을 추출해 대조 학습을 수행한다. 다중 과제 일반화와 패시지 간 상호작용을 동시에 고려함으로써, 기존 의미 중심 검색기보다 다양한 인‑도메인·아웃‑도메인 작업에서 RALM 성능을 일관되게 향상시킨다.
상세 분석
SCARLet은 기존 RALM(Retrieval‑Augmented Language Model)에서 검색기의 목표를 “의미적 연관성”에서 “ downstream 작업에 실제로 도움이 되는 유틸리티”로 전환한다는 점에서 혁신적이다. 두 가지 핵심 설계 요소—다중 과제 일반화와 패시지 간 상호작용—를 구체화하기 위해 다음과 같은 절차를 도입한다.
첫째, 공유 컨텍스트 합성 단계에서는 여러 과제의 시드 데이터를 기반으로 엔티티 추출·연관 엔티티 탐색을 수행하고, 위키피디아에서 관련 패시지를 수집한다. 이렇게 만든 단일 컨텍스트 D_shared는 모든 과제에 공통적으로 사용되며, 과제별 데이터 생성 시 “공통 배경”을 제공한다. 이는 기존 풀링 전략에서 각 샘플마다 서로 다른 컨텍스트가 존재해 의미적 편향이 발생하는 문제를 근본적으로 차단한다. 또한, LLM 기반 합성기를 활용해 D_shared와 과제 설명·예시를 입력으로 새로운 (x, y) 쌍을 자동 생성한다. 여기에는 의미는 맞지만 실제로는 무용지물인 ‘노이즈 패시지’도 포함시켜 모델이 유용한 패시지를 구분하도록 강건성을 높인다.
둘째, 패시지‑레벨 유틸리티 귀속에서는 퍼트루베이션 기반 방법을 차용한다. 컨텍스트 내 k개의 패시지 각각에 대해 0/1 벡터 v를 무작위로 샘플링하고, 해당 벡터에 따라 패시지를 제거한 뒤 생성 모델이 출력하는 로그잇(logit) 변동을 측정한다. 전체 2^k 가능한 조합을 모두 탐색하는 대신, LIME에서 영감을 얻은 샘플링‑서로게이트 접근법을 사용한다. n개의 퍼트루베이션 샘플을 수집하고, ridge regression을 통해 z_i(로그잇 변동)와 v_i(패시지 포함 여부) 사이의 선형 관계 α를 학습한다. 여기서 α_i는 i번째 패시지의 유틸리티 점수, α_0은 인터셉트(전체 컨텍스트 효과)를 의미한다. 로그잇 변동은 토큰별 로그잇을 합산한 값으로 정의돼, 정답 토큰에 대한 모델 신뢰도 변화를 직접 반영한다. 실험적으로 GTI 벤치마크(HotpotQA, Natural Questions, MSMARCO‑QA)에서 nDCG가 80 % 이상, 일부는 90 %에 달해 기존 귀속 기법보다 20 % 이상 우수함을 입증한다.
세 번째, 샘플링·대조 학습 단계에서는 유틸리티 점수 분포가 역 S‑곡선을 이루는 것을 관찰하고, 1‑차원 클러스터링(k‑means 혹은 히스토그램 기반)으로 점수를 세 구간(긍정, 중간(폐기), 부정)으로 나눈다. 높은 점수 패시지는 긍정 샘플, 낮은 점수는 부정 샘플로 라벨링하고, 중간 점수는 학습에 사용하지 않는다. 이렇게 만든 라벨링 데이터를 이용해 기존 dense retriever와 동일한 인코더 구조를 유지하면서, 대조 손실 L = Σ_x Σ_{d+∈D+} Σ_{d-∈D-} max(0, margin - score(x,d+) + score(x,d-)) + λ·CE 로 최적화한다.
SCARLet의 설계는 두 가지 관점에서 기존 연구와 차별화된다. (1) 다중 과제 일반화: 공유 컨텍스트를 통해 과제 간 의미적 차이를 최소화함으로써, 하나의 검색기가 여러 과제에 걸쳐 일관된 유틸리티 기준을 학습한다. 이는 특히 언어 능력이 약한 작은 모델에서도 효과가 크다. (2) 패시지 간 상호작용: 퍼트루베이션 기반 귀속은 개별 패시지의 독립적 기여도가 아니라, 다른 패시지와의 조합에서 발생하는 시너지·상쇄 효과를 정량화한다. 따라서 다중 홉 QA, 장문 생성 등 복합 추론이 요구되는 상황에서도 정확한 유틸리티 신호를 제공한다.
실험 결과는 10개의 데이터셋(8개 과제)에서 SCARLet 기반 검색기를 적용한 RALM이 모두 기존 베이스라인(semantic‑based dense retriever, 기존 utility‑based 방법)보다 높은 정확도·F1·BLEU 등을 기록했으며, 특히 도메인 외 데이터에서도 성능 저하가 최소화되었다. 분석 및 사례 연구를 통해 SCARLet이 실제로 “정답에 가까운 패시지”를 높은 점수로 매기고, “무관하거나 오히려 방해가 되는 패시지”를 낮은 점수로 구분함을 확인했다.
요약하면, SCARLet은 (1) 공유 컨텍스트를 통한 과제 간 편향 감소, (2) 퍼트루베이션‑서로게이트 기반 패시지 유틸리티 귀속, (3) 유틸리티 기반 대조 학습이라는 세 단계 파이프라인을 제시함으로써, RALM에서 검색기와 생성기 간 정렬 문제를 효과적으로 해결한다.
댓글 및 학술 토론
Loading comments...
의견 남기기