DriveKD 자율주행 비전언어 모델을 위한 다중교사 지식증류
초록
DriveKD는 자율주행을 인식‑추론‑계획의 순차적 삼단계로 분해하고, 각 단계에 특화된 교사 모델의 레이어별 어텐션을 활용해 소형 VLM에 지식증류하는 프레임워크이다. 레이어 선택, 신호 선택, 교차‑목표 그래디언트 충돌 완화를 위한 비대칭 그래디언트 투영(AGP) 등을 체계적으로 연구했으며, InternVL3‑1B 모델이 42배 적은 GPU 메모리와 11.4배 높은 처리량을 보이면서 78B 사전학습 모델을 능가하고, GPT‑5.1을 계획 측면에서 앞선다.
상세 분석
본 논문은 자율주행이라는 복합 과제를 “인식‑추론‑계획”이라는 순차적 트라이어드로 명시적으로 분해하고, 각 단계별로 가장 효과적인 교사‑학생 레이어와 증류 신호를 과학적으로 탐색한다는 점에서 혁신적이다. 저자들은 먼저 레이어 선택을 두 관점(표현 변화와 교차‑모달 상호작용, 그리고 능력별 내부 일관성)에서 정량화하였다. 인접 레이어 코사인 유사도와 비전‑텍스트 코사인 유사도를 통해 1층과 penultimate(마지막 전 레이어)가 각각 큰 변화를 보이며, 특히 penultimate 레이어에서 비전‑텍스트 융합이 최고조에 이르는 것을 확인했다. 이어서 능력별 내부 일관성(intra‑consistency) 지표를 도입해, 인식은 1층에서 가장 높은 일관성을, 추론은 중간 레이어 전반에 걸쳐 안정적인 표현을, 계획은 penultimate 레이어에서 최고 일관성을 보임을 밝혀냈다. 이러한 분석을 바탕으로 인식은 1층, 추론은 중간 레이어 집합, 계획은 penultimate 레이어를 증류 대상으로 선정하였다.
다음으로 증류 신호 선택을 검토한다. 저자들은 각 질문‑이미지 쌍에 대해 마지막 비특수 토큰의 은닉 벡터와 헤드 평균 어텐션 행렬을 추출하고, 질문 간 분산(dispersion)을 측정하였다. 결과는 어텐션 행렬이 은닉 벡터보다 일관성이 높으며, 특히 어텐션이 능력별 안정적인 행동을 더 잘 반영한다는 것을 보여준다. 따라서 어텐션을 주요 증류 신호로 채택하고, 출력 분포 정렬(KL‑다이버전스)은 자율주행 데이터가 일반 멀티모달 QA에 비해 확신도가 낮고 분산이 커서 노이즈가 많다는 이유로 제외하였다.
단일 교사 증류 단계에서는 하드 라벨 손실과 함께 선택된 레이어의 어텐션 매칭 손실을 결합한다. 여기서 핵심은 각 능력마다 다른 어텐션 형태를 사용한다는 점이다. 인식과 계획은 각각 첫 번째 레이어와 마지막 전 레이어의 교차‑모달 어텐션을, 추론은 중간 레이어의 전체 어텐션을 그룹 매칭 방식으로 증류한다. 이러한 설계는 각 능력에 최적화된 정보를 전달하면서도 불필요한 과적합을 방지한다.
다중 교사 증류에서는 세 개의 능력별 교사가 동시에 학생 모델에 영향을 미치게 되며, 서로 다른 목표가 충돌할 위험이 있다. 이를 해결하기 위해 저자들은 비대칭 그래디언트 투영(AGP) 기법을 도입했다. AGP는 각 능력의 그래디언트를 정규화하고, 충돌이 감지될 경우 우선순위가 낮은 그래디언트를 고정된 방향으로 투영함으로써 전체 손실이 감소하도록 설계되었다. 실험 결과, AGP를 적용한 다중 교사 모델이 단일 교사 모델보다 전반적인 성능과 안정성에서 우수함을 입증했다.
마지막으로 모델 규모와 패밀리 전반에 걸친 일반성을 검증하였다. InternVL3‑1B, InternVL3‑8B, 그리고 다른 VLM 패밀리(예: LLaVA‑V2)에서도 동일한 증류 파이프라인을 적용했으며, 모두 메모리·연산 효율성을 크게 개선하면서도 기존 대형 모델 대비 동등하거나 더 나은 성능을 기록했다. 특히 DriveBench 벤치마크에서 78B 사전학습 모델을 능가하고, 계획 지표에서는 GPT‑5.1을 앞선다는 결과는 증류된 소형 VLM이 실제 자율주행 시스템에 실용적으로 적용될 수 있음을 강력히 시사한다.
요약하면, 이 논문은 (1) 레이어와 신호 선택을 정량적으로 규명, (2) 능력별 맞춤형 어텐션 증류 설계, (3) 다중 교사 간 그래디언트 충돌을 완화하는 AGP 도입, (4) 다양한 모델·스케일에 대한 일반성 검증이라는 네 축을 통해, 고성능 대형 VLM을 대체할 수 있는 효율적인 소형 VLM 증류 프레임워크를 제시한다는 점에서 학술적·산업적 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기