클래스 경쟁을 활용한 집중형 어트리뷰션 맵

클래스 경쟁을 활용한 집중형 어트리뷰션 맵
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 기존 어트리뷰션 방법이 로그잇(logit)만을 대상으로 할 때 발생하는 과도한 강조와 비특이성을 지적한다. 다중 클래스에 대한 어트리뷰션을 소프트맥스 정규화해 “Attribution Lens(AL)”를 적용하면, 객체‑특이, 개념‑특이, 미세‑구분, 공유 특징을 명확히 구분할 수 있다. 7가지 모델·18가지 어트리뷰션 기법에 대해 2배까지 성능 향상을 입증한다.

상세 분석

본 연구는 딥러닝 모델의 투명성을 높이기 위한 어트리뷰션 기법이 로그잇 단일 클래스에만 초점을 맞출 경우, 모델이 실제로 수행하는 클래스 간 경쟁 정보를 무시하게 된다는 근본적인 문제를 발견한다. 소프트맥스 층은 각 클래스의 로그잇을 비교해 최종 확률을 산출하지만, 기존 방법은 이 단계에서 발생하는 ‘대조(contrast)’ 효과를 활용하지 못한다. 특히, 확신이 높은 예측에서는 소프트맥스 확률의 그래디언트가 거의 0에 수렴해 중요한 특징을 놓치게 된다.

이를 해결하기 위해 저자들은 “Attribution Lens (AL)”라는 플러그‑인 방식을 제안한다. 먼저, 선택된 클래스 집합 (C’)에 대해 각 클래스별 로그잇 그래디언트 혹은 기존 어트리뷰션 맵 (A_c)를 계산한다. 그 다음, 각 픽셀 ((i,j))에 대해 소프트맥스 정규화를 수행한다:

\


댓글 및 학술 토론

Loading comments...

의견 남기기