Z 손실 이동 및 스케일 불변 분류 손실

이 논문은 대규모 출력 클래스를 갖는 신경망 학습에서 기존 로그‑소프트맥스의 계산 복잡도와 순위 기반 평가 지표와의 불일치를 극복하기 위해, 평균과 표준편차를 이용한 Z‑정규화와 소프트플러스 함수를 결합한 Z‑손실을 제안한다. Z‑손실은 구형 손실(spherical loss) 계열에 속해 출력 차원 수와 무관하게 O(d²)의 비용으로 정확한 그래디언트를 계산할 수 있으며, 실험적으로 언어 모델링 과제에서 top‑k 오류율과 평균 역순위(MRR)…

저자: Alex, re de Brebisson, Pascal Vincent

본 논문은 다중 클래스 신경망 학습에서 가장 널리 사용되는 로그‑소프트맥스 손실이 갖는 두 가지 근본적인 한계를 지적한다. 첫 번째는 출력 클래스 수 D에 비례하는 계산 복잡도이다. 전통적인 구현에서는 마지막 선형 계층의 가중치 행렬 W (크기 d×D)와 입력 벡터 h (크기 d) 사이의 행렬 곱을 매번 수행해야 하므로, 학습 시간과 메모리 사용량이 D에 선형적으로 증가한다. 두 번째는 로그‑소프트맥스가 실제 최종 목표인 비분화된 평가 지표(예: top‑k 오류율, 평균 역순위)와 얼마나 잘 맞는가에 대한 불확실성이다. 로그‑소프트맥스는 확률 분포를 모델링하지만, 순위 기반 지표는 확률 자체보다는 클래스 간 상대적인 순위에 더 민감하다. 이러한 문제를 해결하기 위해 저자들은 Z‑손실(Z‑loss)을 제안한다. Z‑손실은 출력 전활성값 o =

Z 손실 이동 및 스케일 불변 분류 손실

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기