경량화와 일반화를 동시에 잡은 대비 학습 기반 음향 장면 표현
초록
ContrastASC는 사전 학습된 BEATs 모델을 감독 대비 학습과 mixup‑aware 손실로 미세조정하고, 대비 표현 증류(CRD)를 통해 구조화된 임베딩을 경량 CP‑Mobile 학생 모델에 전달한다. 실험 결과, 폐쇄 집합 정확도는 유지하면서 TUT‑17·ICME24와 같은 미지의 장면에 대한 5‑shot/20‑shot 적응 성능이 크게 향상되었으며, LayerNorm 적용과 2‑layer MLP 투사 헤드가 전이 효율을 높이는 핵심 요인으로 확인되었다.
상세 분석
본 논문은 현장(edge) 디바이스에 적용 가능한 음향 장면 분류(ASC) 모델이 고정된 클래스 집합에만 최적화되는 기존 한계를 극복하고자, “구조화된 임베딩 공간”을 학습시키는 두 단계 프레임워크 ContrastASC를 제안한다. 첫 단계에서는 사전 학습된 BEATs(16 kHz 입력) 백본에 두 개의 MLP 투사 헤드와 코사인 유사도 기반 분류 헤드를 추가한다. 기존 교차 엔트로피(CE) 손실은 클래스 경계에만 초점을 맞추어 새로운 클래스에 대한 일반화가 어려운 반면, 감독 대비 학습(SupCon)은 동일 클래스 샘플을 가깝게, 다른 클래스 샘플을 멀리 배치함으로써 의미적 관계를 보존한다. 여기서 저자는 mixup‑aware SupCon 손실을 설계해, 라벨이 연속적인 mixup 샘플에 대해 라벨 벡터 간 내적을 가중치로 사용함으로써 “부드러운” 클래스 관계를 반영한다. 온도 파라미터 τ=0.2와 λ=0.25(CE와 대비 손실 비율) 등 하이퍼파라미터는 검증 셋에서 최적화되었으며, 데이터 증강으로는 Freq‑MixStyle, 시간 롤링, 주파수 마스킹 등을 결합해 도메인 다양성을 강화한다.
두 번째 단계는 대비 표현 증류(Contrastive Representation Distillation, CRD)를 이용해 구조화된 교사 임베딩을 경량 학생 모델(CP‑Mobile)로 전달한다. 기존 KD가 로짓만 전송하는 데 반해 CRD는 교사와 학생 투사 임베딩 사이의 쌍별 유사성을 최대화함으로써 상호 정보량을 보존한다. 여기서도 2‑layer MLP 투사 헤드를 사용해 비선형 관계를 충분히 포착하고, 학생 모델의 정규화 층을 BatchNorm에서 LayerNorm으로 교체해 샘플 독립적인 정규화를 구현, 이는 다양한 디바이스와 환경에서 임베딩 안정성을 크게 향상시킨다. CRD 손실에 더해 표준 KD 손실(KL‑divergence)과 CE 손실을 가중치 α=0.02, β=0.1으로 결합해 학습한다.
실험은 TAU‑22 데이터셋을 기준으로 진행했으며, 폐쇄 집합 정확도는 교사 모델이 62.5%(Contrastive FT) 수준을 유지한다. 오픈 셋 평가에서는 TUT‑17과 ICME24에 대해 5‑shot/20‑shot 설정으로 로지스틱 회귀를 학습했을 때, 대비 미세조정+CRD 조합이 기존 FT+KD 대비 각각 평균 34%p, 최대 6%p까지 정확도 향상을 보였다. 특히, LayerNorm을 적용한 학생 모델이 BatchNorm 대비 0.30.5%p의 추가 이득을 제공했으며, 모델 파라미터가 6 K에서 126 K까지 변동해도 성능 향상이 일관적으로 나타났다. 이는 구조화된 임베딩이 모델 크기에 독립적으로 전이 가능함을 의미한다.
핵심 인사이트는 다음과 같다. ① 감독 대비 학습은 클래스 간 의미적 거리 정보를 명시적으로 학습해 새로운 클래스에 대한 적응성을 높인다. ② mixup‑aware 손실은 연속적인 라벨 공간을 활용해 대비 학습과 데이터 증강을 자연스럽게 결합한다. ③ CRD와 같은 관계 기반 증류는 경량 모델이 교사의 임베딩 구조를 그대로 물려받게 함으로써, 경량화와 일반화 사이의 트레이드오프를 최소화한다. ④ LayerNorm과 2‑layer 투사 헤드와 같은 설계 선택은 실제 디바이스 환경에서의 변동성을 완화한다.
댓글 및 학술 토론
Loading comments...
의견 남기기