대형 시각 모델을 활용한 장기 꼬리 데이터 특성 강화
초록
본 연구는 언어 정보를 사용하지 않고, 대형 시각 모델(LVM)인 Segment Anything Model(SAM)에서 추출한 특징을 기존 백본 네트워크와 결합하여 장기 꼬리(long‑tailed) 데이터의 분류 성능을 향상시키는 방법을 제안한다. 특징 맵과 잠재 벡터 두 단계에서 SAM 특징을 융합하고, 클래스별 프로토타입을 이용한 손실 함수를 설계해 헤드 클래스는 클러스터링을, 테일 클래스는 다양성을 촉진한다. ImageNet‑LT와 iNaturalist2018에서 기존 방법 대비 유의미한 정확도 개선을 확인하였다.
상세 분석
이 논문은 장기 꼬리 인식 문제를 해결하기 위해 ‘시각 기반’ 대형 사전학습 모델을 활용한다는 점에서 기존 LLM·VL‑LM 기반 접근법과 차별화된다. 핵심 아이디어는 두 단계의 특징 증강이다. 첫 번째는 SAM이 생성한 고해상도 특징 맵을 PCA로 차원 축소 후 1×1 컨볼루션을 거쳐 백본(ResNet) 특징과 요소별 곱셈·덧셈으로 결합하는 방식이다. 이는 이미지 내 중요한 영역을 강조하면서 백본의 공간 정보를 보강한다. 두 번째는 SAM 특징을 평균 풀링해 얻은 잠재 벡터를 백본의 최종 특징과 연결하고, 자체‑어텐션과 완전 연결층을 거쳐 로그잇을 생성한 뒤 원본 로그잇과 가중합(α)한다. 이 과정은 전역적인 시각 정보를 보강해 클래스 구분력을 높인다.
프로토타입 기반 손실 설계도 주목할 만하다. 메모리 뱅크에 최근 특징을 저장하고 평균을 취해 클래스별 프로토타입을 동적으로 업데이트한다. 헤드 클래스에 대해서는 ‘L_head’ 손실을 적용해 프로토타입 주변에 특징을 압축시켜 클래스 간 경계를 명확히 한다. 반면 테일 클래스는 ‘L_tail‑std’와 ‘L_tail‑logdist’를 동시에 사용한다. 전자는 특징과 프로토타입 간 거리를 최소화해 학습 안정성을 확보하고, 후자는 로그 거리 함수를 통해 특징을 프로토타입에서 일정 정도 멀어지게 하여 다양성을 유지한다. 이렇게 불균형 가중치(w_y)와 임계값(τ_head)을 활용해 헤드·테일 간 손실 비중을 자동 조절한다는 점은 장기 꼬리 데이터의 특성을 정교하게 반영한다.
실험에서는 ImageNet‑LT와 iNaturalist2018 두 벤치마크에 대해 기존 재샘플링·재가중치·대조 학습 기반 방법들과 비교하였다. SAM 기반 특징 융합만으로도 Top‑1 정확도가 1~2%p 상승했으며, 프로토타입 손실을 추가했을 때 추가적인 0.5%p 정도의 향상이 관찰되었다. 특히 테일 클래스(예: 100개 이하 샘플)에서의 정확도 상승이 두드러져, 제안 방법이 데이터 불균형을 효과적으로 완화함을 입증한다.
한계점으로는 SAM을 ‘고정된’ 모델로 사용함에 따라 추가적인 파라미터 튜닝이 제한적이며, 대규모 데이터셋에서 PCA와 1×1 컨볼루션 연산이 연산 비용을 증가시킬 수 있다. 또한 프로토타입 메모리 뱅크의 크기(M)와 가중치 조정 파라미터(α, τ_head)의 민감도 분석이 부족해 실제 적용 시 하이퍼파라미터 최적화가 필요하다. 향후 연구에서는 SAM을 미세조정하거나, 다른 대형 비전 트랜스포머(ViT) 기반 모델과의 비교, 그리고 메모리 효율적인 프로토타입 업데이트 전략을 탐색할 여지가 있다.
전반적으로 이 논문은 언어 정보를 배제하고도 대형 시각 모델의 풍부한 표현력을 활용해 장기 꼬리 인식 성능을 실질적으로 개선할 수 있음을 보여준다. 특징 맵·잠재 벡터 융합과 프로토타입 기반 손실의 조합은 향후 비전 기반 불균형 학습에 유용한 설계 패턴이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기