멀티‑교사 지식 증류를 위한 지식 정제: 라우터와 강화학습 기반 통합 기법
초록
본 논문은 다수의 교사 LLM이 생성한 근거들을 하나의 일관된 근거로 압축하는 지식 정제(Knowledge Purification) 개념을 제안한다. 다섯 가지 정제 방법(집계, 세 종류 라우팅, 강화학습 기반 선택)을 설계하고, 공통 상식·생의학 추론 벤치마크에서 정제된 다중 교사 증류가 성능 향상과 지식 충돌 완화를 동시에 달성함을 실증한다. 특히 라우터 기반 방법은 도메인 외 데이터에서도 강인한 일반화를 보여, 경량 모델 배포에 실용적이다.
상세 분석
이 연구는 기존 멀티‑교사 지식 증류가 교사 간 지식 충돌(hallucination, 상이한 추론 경로)과 자원 소모(샘플링·학습 파이프라인 복잡도) 문제에 직면한다는 점을 정확히 진단한다. 저자들은 이러한 문제를 “근거”라는 공통 표현 공간에 초점을 맞추어 해결하고자 한다. 구체적으로, 각 교사 LLM이 생성한 근거 집합 R={r₁,…,rₙ}을 하나의 통합 근거 rᴾ = f(R) 로 변환함으로써, 학생 모델이 다중 교사의 상충된 정보를 동시에 학습하는 대신, 정제된 단일 근거를 통해 일관된 신호를 받게 된다.
제안된 다섯 가지 정제 방법은 크게 **집계(Aggregation)**와 라우팅(Routing), 강화학습(RL) 기반 선택으로 구분된다.
- Knowledge Aggregation은 대형 LLM을 “집계기”로 활용해 모든 교사 근거를 입력으로 받아 하나의 통합 근거를 생성한다. 이는 프롬프트‑튜닝 기반 인‑컨텍스트 학습을 통해 구현되며, 교사 수가 늘어나도 선형적인 연산 비용을 유지한다.
- LLM Routing은 질문 q에 가장 적합한 교사의 근거를 선택한다. 세 가지 구현이 제시되는데, (a) Plackett‑Luce(PL) 랭킹은 교사별 스코어 ξᵢ를 학습해 소프트맥스 형태의 선택 확률을 계산한다; (b) PLM Classifier는 사전학습된 언어 모델의 CLS 토큰을 특징으로 사용해 MLP로 교사별 확률을 예측한다; (c) Similarity‑based Router는 각 교사에 대한 학습 가능한 임베딩 kᵢ와 질문 임베딩 E(q) 사이의 코사인 유사도로 확률을 산출한다. 라우터는 대조 손실을 통해 교사 임베딩을 정교화한다.
- RL‑based Teacher Selection은 정책 πθ(sᵢ,aᵢ) 를 정의해 교사 선택 행동 aᵢ∈{0,1}을 샘플링한다. 상태 sᵢ는 질문과 교사 근거, 그리고 교사의 정답 여부를 결합한 벡터이며, 보상 r = −L_PR − L_DL 로 설정해 학생 모델의 전체 손실을 최소화하도록 정책을 강화학습한다.
실험 설계는 FLAN‑T5‑xlarge, Llama‑2‑chat, BioMistral‑7B, Llama‑3.1‑8B‑Instruct 등 네 가지 교사를 조합해 77M·248M·783M 규모의 학생 모델에 적용한다. 주요 벤치마크는 OBQA, ARC, Riddle, PQA(생의학)이며, 평균 정확도 기준으로 기존 TinyLLM(다중 교사 직접 사용) 대비 정제 방법이 1.5~3.5%p 상승한다. 특히 라우터 기반 방법은 도메인 외 테스트(예: 새로운 의료 질문)에서 가장 높은 일반화 점수를 기록한다.
자원 효율성 측면에서, 라우터는 전체 교사 집합을 전부 호출하지 않고 하나의 교사만 선택하므로 추론 비용이 크게 감소한다. 반면 집계 방식은 모든 교사를 호출하지만, 단일 LLM이 집계 작업을 수행하므로 파이프라인 복잡도는 낮다. RL 방식은 정책 학습 비용이 추가되지만, 선택된 교사의 품질이 지속적으로 향상되는 장점이 있다.
전체적으로 이 논문은 **“근거 기반 정제”**라는 새로운 관점을 제시함으로써, 멀티‑교사 증류의 핵심 문제를 근본적으로 해결하고, 라우터와 강화학습을 결합한 실용적인 솔루션을 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기