그래프 어텐션 기반 적대적 도메인 정렬을 활용한 교차 도메인 표정 인식

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 ResNet‑50 백본에 배치‑레벨 그래프 어텐션 네트워크(GAT)를 결합하고, Gradient Reversal Layer를 이용한 적대적 학습과 CORAL·MMD 기반 통계적 정렬을 동시에 적용한 GAT‑ADA 프레임워크를 제안한다. 미라벨링된 타깃 도메인에 대해 샘플 간 관계를 링 형태의 희소 그래프로 모델링함으로써 도메인 간 시프트를 완화하고, RAF‑DB를 소스로 다양한 표정 데이터셋(CK+, JAFFE, SFEW2.0, FER2013, ExpW)으로 전이했을 때 평균 74.39%의 정확도를 달성한다. 특히 RAF‑DB→FER2013 전이에서는 98.0%의 정확도로 기존 최고 성능 대비 약 36포인트 상승한다.

상세 분석

GAT‑ADA는 크게 세 가지 혁신적인 요소를 결합한다. 첫째, 배치‑레벨 그래프 어텐션 네트워크를 도입해 미니배치 내 샘플들을 정점으로, 인접성을 링 형태의 희소 연결 구조로 정의한다. 이 구조는 각 샘플이 주변 샘플들의 특징을 동적으로 가중합하도록 하여, 도메인 간 차이가 큰 경우에도 공통된 정서적 패턴을 강화한다. 둘째, 적대적 도메인 정렬을 위해 Gradient Reversal Layer(GRL)를 사용해 도메인 분류기를 역전시킴으로써 특징 추출기와 도메인 구분기 사이에 경쟁 관계를 형성한다. 이는 특징 공간을 도메인 불변하게 만드는 효과를 제공한다. 셋째, 통계적 정렬 기법인 CORAL(공분산 정렬)과 MMD(최대 평균 차이)를 동시에 적용해 평균과 공분산 수준에서 소스와 타깃의 분포를 맞춘다. 이러한 다중 정렬 전략은 단일 정렬 방식이 놓칠 수 있는 고차원 구조적 차이를 보완한다. 실험에서는 RAF‑DB를 유일한 라벨링된 소스로 사용하고, 다섯 개의 서로 다른 타깃 데이터셋에 대해 무지도 적응을 수행했다. 결과는 평균 74.39%라는 높은 교차 도메인 정확도를 보여주며, 특히 FER2013에 대한 98.0% 정확도는 기존 방법 대비 36%포인트 상승을 의미한다. 이는 GAT‑ADA가 샘플 간 관계를 효과적으로 활용하고, 적대적·통계적 정렬을 조화롭게 결합함으로써 심한 도메인 시프트를 극복한다는 강력한 증거이다. 또한, 동일한 ResNet‑50 백본과 동일 전처리 파이프라인을 사용한 베이스라인 대비 성능 향상이 크므로, 제안 방법의 일반화 가능성과 실용성이 높다고 평가할 수 있다.

그래프 어텐션 기반 적대적 도메인 정렬을 활용한 교차 도메인 표정 인식

초록

상세 분석

댓글 및 학술 토론

의견 남기기