적응형 특징 증류로 경량 SLU 구현

적응형 특징 증류로 경량 SLU 구현
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델의 무거운 연산 부담을 피하면서도 풍부한 의미 정보를 전이하기 위해, 일반 텍스트 임베딩(GTE) 기반 교사 모델과 경량 학생 모델 사이에 동적 어댑터와 잔차 투영 신경망(RPNN)을 도입한 적응형 특징 증류(AFD‑SLU) 프레임워크를 제안한다. 동적 증류 계수(DDC)를 통해 학습 진행 상황에 따라 증류 강도를 조절하고, 중국어 프로파일 기반 ProSLU 벤치마크에서 의도 정확도 95.67%, 슬롯 F1 92.02%, 전체 정확도 85.50%를 달성하였다.

상세 분석

AFD‑SLU는 세 가지 핵심 모듈로 구성된다. 첫째, 교사 모델은 최신 대규모 언어 모델에서 파생된 General Text Embeddings(GTE) 모델을 사용한다. 이 모델은 파라미터를 고정하고 입력 발화에 대해 마지막 네 개 레이어의 은닉 상태를 평균한 뒤, 마스크 기반 평균 풀링을 적용해 토큰‑레벨 임베딩을 생성한다. 둘째, 학생 모델은 중국어 특성을 고려한 BiLSTM‑기반 공동 의도·슬롯 구조를 채택한다. BiLSTM 뒤에 자체‑어텐션과 어텐션 풀링을 두어 시퀀스 정보를 압축하고, 이를 의도 분류와 슬롯 태깅에 동시에 활용한다. 셋째, 동적 어댑터는 두 서브모듈인 Residual Projection Neural Network(RPNN)와 Dynamic Distillation Coefficient(DDC)로 이루어진다. RPNN은 학생 모델의 저차원 임베딩을 선형 변환 후 GELU·LayerNorm을 거쳐 차원을 4배 확대하고, 두 단계의 피드‑포워드와 잔차 연결을 통해 비선형성을 부여한다. 마지막 선형 레이어가 교사 모델의 차원(d_et)으로 투사되어 e_S를 얻는다. 이 과정은 학생의 표현을 교사의 고차원 의미 공간에 정렬하면서도 원본 정보를 보존한다. DDC는 증류 손실(L_distill)과 작업 손실(L_task)의 가중치를 코사인‑스케줄링 방식으로 조절한다. 초기 λ_initial=0.1에서 시작해 에폭이 진행될수록 λ_final=0.7로 감소시키며, 학습 초반에는 교사의 풍부한 지식을 강하게 흡수하고 후반에는 작업‑특화 학습에 집중하도록 설계되었다. 손실은 L_total = L_task + λ·L_distill 형태이며, L_task은 의도 손실과 슬롯 손실을 α 비율로 혼합한다. 실험에서는 λ 스케줄링이 없을 경우 성능이 2~3%p 하락함을 확인했다.

실험 설정은 ProSLU 데이터셋(4,196/522/531)과 세 가지 평가 지표(의도 정확도, 슬롯 F1, 전체 정확도)를 사용하였다. 학생 모델로는 기존 JPIS와 PRO‑HAN을 각각 2M, 40M 파라미터 규모로 채택했으며, 교사 모델은 Qwen2‑1.5B‑instruct 기반 GTE를 기본으로 삼았다. AFD‑SLU를 적용한 결과, JPIS‑AFD는 의도 정확도 90.20% (↑2.25), 슬롯 F1 88.51% (↑2.75), 전체 정확도 85.50% (↑3.20)를 기록했고, PRO‑HAN‑AFD는 의도 95.67% (↑3.58), 슬롯 92.02% (↑2.01)를 달성했다. 파라미터 수와 학습 데이터 규모는 변하지 않아 경량화와 실시간 추론에 유리하다.

Ablation 연구에서는 RPNN을 단순 선형(LINEAR) 혹은 깊은(Deep) 구조로 교체했을 때 모두 성능 저하가 나타났으며, 특히 과도한 비선형 깊이는 학습 불안정을 야기했다. DDC를 제거하면 전체 정확도가 3%p 이상 감소한다는 점에서 동적 가중치 조절의 중요성을 확인했다. 또한 다양한 GTE 교사 모델을 교체한 실험에서는 중간 규모(0.6B~1.5B) 모델이 가장 효과적이었으며, 지나치게 큰 모델은 작은 ProSLU 데이터에 과적합되는 경향을 보였다.

이 논문은 (1) GTE 기반 교사 모델을 SLU에 최초 적용, (2) RPNN을 통한 효율적 특징 정렬, (3) 코사인 스케줄링 기반 DDC로 증류 강도 자동 조절이라는 세 가지 혁신을 제시한다. 결과적으로 대규모 언어 모델의 고성능을 유지하면서도 경량 모델에 효과적으로 전이함으로써, 리소스가 제한된 실시간 음성 인터페이스에 바로 적용 가능한 솔루션을 제공한다. 향후 연구에서는 데이터 증강, 모델 압축, 다언어 확장 등을 통해 실제 서비스 환경에서의 견고성을 더욱 강화할 수 있을 것으로 기대한다.


댓글 및 학술 토론

Loading comments...

의견 남기기