상호작용 AI를 위한 지식 증류: 모방을 넘어 상황별 가이드 제공
초록
본 논문은 대형 언어 모델(LLM)의 비용·통제 문제를 해결하기 위해, 출력 모방이 아닌 “상황별 텍스트 가이드”를 학생 모델에 전달하는 새로운 지식 증류 프레임워크 GER을 제안한다. 교사가 생성한 전략적 가이드를 라이브러리화하고, 추론 시 현재 대화 상태와 유사한 가이드를 검색·적용함으로써 다중 턴 고객 서비스 대화에서 성능·정책 일치를 크게 향상시킨다.
상세 분석
이 연구는 기존 지식 증류(KD)가 “학생이 교사의 출력을 그대로 모방하도록” 파라미터를 업데이트하는 방식을 비판한다. 다중 턴 대화는 상태 의존적이며, 초기 작은 오류가 시간에 따라 누적돼 최종 결과를 크게 악화시킬 수 있다. 따라서 파라미터 기반 학습은 폐쇄형(open‑loop) 특성 때문에 인터랙티브 환경에 부적합하다. 논문은 이러한 한계를 극복하기 위해 지식 자체를 텍스트 형태의 “전략적 가이드”로 외재화한다. 교사는 학생이 생성한 응답을 검토하고, 해당 대화 상태에서 취해야 할 판단·전술을 자연어 피드백 형태로 제공한다. 이 피드백은 반복적인 교사‑학생 상호작용을 통해 점진적으로 정제되며, 최종적으로 (상태, 가이드) 쌍의 라이브러리가 구축된다.
추론 단계에서는 현재 대화 상태와 가장 유사한 상태를 라이브러리에서 검색하고, 해당 가이드를 학생 모델에 프롬프트 혹은 컨텍스트로 삽입한다. 이렇게 하면 모델 파라미터는 변하지 않으면서도 상황에 맞는 행동을 실시간으로 조정할 수 있다. 가이드는 텍스트이기 때문에 인간이 직접 검토·수정·추가가 가능해 정책 변화나 브랜드 가이드라인 업데이트가 즉시 반영된다.
또한, 학생 모델이 교사의 경로와 다르게 행동해도 라이브러리 커버리지를 확대하기 위해 “폐쇄‑루프 시나리오 생성”을 도입한다. 초기에는 교사 주도 대화를 통해 고품질 가이드를 확보하고, 이후 학생이 만든 대화 궤적을 포함시켜 가이드가 실제 배포 시 발생할 수 있는 오프‑디스트리뷰션 상태까지 포괄하도록 한다. 이는 행동 클로닝(behavioral cloning)의 대표적인 함정—전문가 데이터 분포에만 최적화돼 자체 오류에 회복 불가—을 효과적으로 완화한다.
실험은 목표 지향형 고객 서비스 다중 턴 대화 데이터를 사용했으며, 세 가지 주요 질문을 검증한다. (1) 추론 시 상황별 가이드는 파라미터 기반 파인튜닝·프롬프트 대비 성능을 향상시키는가? (2) 향상된 성능이 고객 만족도(신뢰성, 공감, 응답성)와 직접 연관되는가? (3) 가이드 기반 증류가 배포 환경(분포 이동, 합성 데이터, 다양한 학생 아키텍처)에서 견고한가? 인간 평가와 자동 메트릭 모두에서, GER은 파인튜닝과 동등하거나 그 이상을 달성했으며, 특히 전략적 판단(예: 언제 에스컬레이션, 언제 재프레이밍)에서 큰 개선을 보였다. 또한, 추론 시 가이드를 적용해도 지연이 최소화돼 실시간 서비스에 적합했다.
핵심 기여는 다음과 같다. 첫째, 지식 증류의 대상이 “출력”이 아니라 “상황별 판단·전술”이라는 새로운 패러다임을 제시한다. 둘째, 텍스트 가이드를 외부 라이브러리화함으로써 투명성·모듈성·즉각적 정책 반영을 가능하게 한다. 셋째, 학생이 실제 겪는 상태를 포함한 단계적 시나리오 생성 전략을 통해 오프‑디스트리뷰션 문제를 완화하고, 합성 데이터에 의존하는 경우에도 안정적인 성능을 확보한다. 이러한 접근은 마케팅·고객 서비스 등 인터랙티브 AI가 요구되는 도메인에서 비용 효율적이면서도 통제 가능한 AI 배포를 실현한다.
댓글 및 학술 토론
Loading comments...
의견 남기기