합리주의자로부터 배우다 중간 해석 가능 근거 증류

합리주의자로부터 배우다 중간 해석 가능 근거 증류
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 선택‑예측 구조를 이용한 근거 추출(Rationale Extraction, RE) 모델의 성능을 향상시키기 위해, 강력한 교사 모델의 근거와 예측을 지식 증류(Knowledge Distillation) 방식으로 학생 모델에 전달하는 REKD 프레임워크를 제안한다. Gumbel‑Softmax 기반의 미분 가능한 특징 선택과 온도 스케줄링을 결합한 커리큘럼 학습을 통해, 경량 학생 모델도 높은 정확도와 해석 가능성을 동시에 달성한다. IMDB, CIFAR‑10/100 실험에서 BERT·ViT 변형 모델을 사용해 기존 RE 모델 대비 유의미한 성능 향상을 확인하였다.

**

상세 분석

**
REKD는 기존 근거 추출 모델이 직면한 “닭과 달걀” 문제, 즉 생성기와 예측기가 서로의 출력을 의존하면서도 원격 라벨만을 이용해 학습해야 하는 어려움을 교사‑학생 구조로 해결한다. 교사 모델은 충분히 큰 파라미터와 사전 학습된 가중치를 갖는 BERT‑base 혹은 ViT‑base와 같이 강력한 백본을 사용해 높은 정확도와 신뢰할 수 있는 근거를 제공한다. 학생 모델은 BERT‑small, BERT‑mini, ViT‑tiny 등 파라미터가 제한된 경량 모델이며, 자체 RE 학습 외에도 교사의 근거 분포와 예측 로그잇을 KL‑다이버전스로 정규화한다.

핵심 기술은 두 가지이다. 첫째, Straight‑Through Gumbel‑Softmax를 이용해 이산적인 특징 선택 마스크를 미분 가능하게 만든다. 온도 τ를 점진적으로 감소시키는 스케줄러를 적용해 초기에는 부드러운 확률 분포로 탐색을 촉진하고, 후반부에는 확고한 이진 마스크를 얻는다. 둘째, 이 τ와 동일한 값을 KD 손실에 사용함으로써 온도 스케줄링 자체가 지식 증류의 커리큘럼 역할을 하게 만든다. 높은 τ에서는 교사의 부드러운 선택 확률을 학생이 모방하도록 유도하고, τ가 낮아지면 정확한 이진 선택을 학습하도록 전환한다.

손실 함수는 RE 손실(예측 CE + 선택 길이 정규화)과 KD 손실(생성기 KL + 예측기 KL)의 가중합으로 정의된다. α 파라미터가 두 손실 간 비중을 조절하며, λ_R과 λ_select가 각각 생성기 증류와 선택 길이 제약의 강도를 조절한다. 이러한 설계는 학생이 교사의 “전문가 지식”을 흡수하면서도 자체 데이터에서 근거를 탐색하도록 균형을 맞춘다.

실험에서는 동일한 데이터셋에 대해 교사‑학생 조합을 여러 변형으로 비교하였다. IMDB 감성 분석에서는 BERT‑base 교사와 BERT‑mini 학생을 사용했을 때, 단순 RE 대비 정확도가 3~5% 상승했으며, 선택된 토큰 비율도 목표값에 가깝게 유지되었다. 비전 분야에서는 ViT‑base 교사와 ViT‑tiny 학생을 조합했을 때 CIFAR‑10/100에서 각각 2.8%와 3.2%의 정확도 향상을 기록했다. 또한, 근거 마스크의 시각적·언어적 일관성이 향상되어 인간 평가에서도 높은 신뢰도를 얻었다.

한계점으로는 교사 모델이 반드시 높은 성능을 보장해야 한다는 점과, 온도 스케줄링 파라미터 선택이 데이터와 모델 규모에 따라 민감하게 작용한다는 점을 들 수 있다. 향후 연구에서는 다중 교사 ensemble, 비지도 기반 근거 사전학습, 그리고 다른 유형의 선택 메커니즘(예: 연속형 마스크)과의 결합을 탐색할 여지가 있다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기