훈련 없이 경험을 압축하는 멀티모달 추론 증류

TED는 파라미터 업데이트 없이 교사 모델이 생성한 추론 경험을 학생 모델의 프롬프트에 삽입해 멀티모달 추론 성능을 향상시키는 프레임워크이다. 학생은 여러 추론 경로를 생성하고, 교사는 이를 비교·평가해 일반화된 경험을 추출한다. 추출된 경험은 사용 빈도와 효용을 기반으로 압축·정제되며, 최종적으로 시스템 프롬프트에 포함돼 추론 시 활용된다. MathVision과 VisualPuzzles에서 100개의 학습 샘플만으로 파라미터 기반 증류와 비슷…

저자: Shuozhi Yuan, Jinqing Wang, Zihao Liu

**1. 연구 배경 및 동기** 지식 증류(KD)는 대규모 교사 모델의 능력을 소형 학생 모델에 전달하기 위한 핵심 기술로, 주로 소프트 라벨, 라셔널, 추론 경로 등을 이용해 학생 파라미터를 대규모 데이터와 반복적인 그래디언트 업데이트로 학습한다. 그러나 이러한 파라미터 기반 접근은 높은 연산 비용과 대량 학습 데이터가 필요해, 엣지 디바이스, 블랙박스 API, 급변하는 현장 환경 등에서 적용이 어렵다. 따라서 “파라미터를 전혀 업데이트하지 않고도 지식을 전달할 수 있는가?”라는 질문이 제기된다. **2. TED 프레임워크 개념** TED(Training‑Free Experience Distillation)는 파라미터 업데이트를 완전히 배제하고, 교사가 추출한 **경험(Experience)**을 학생 모델의 프롬프트에 삽입하는 방식으로 지식 전이를 수행한다. 경험은 텍스트 형태의 추상화된 추론 원칙이며, 시스템 프롬프트(`p_sys`)와 결합해 `p(x;E) =

훈련 없이 경험을 압축하는 멀티모달 추론 증류

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기