희소화된 주의 메커니즘과 다중 라벨 분류

본 논문은 소프트맥스의 대안으로 ‘sparsemax’를 제안한다. sparsemax는 입력 벡터를 단순히 확률 단순체에 투사함으로써 영(0) 확률을 갖는 희소한 출력 분포를 생성한다. 이를 기반으로 새로운 convex 손실 함수(sparsemax loss)를 정의하고, 다중 라벨 분류와 자연어 추론에서의 어텐션 메커니즘에 적용해 기존 소프트맥스와 비슷한 성능을 유지하면서 더 해석 가능한 선택적 어텐션을 얻었다.

저자: Andre F. T. Martins, Ramon Fern, ez Astudillo

본 논문은 딥러닝 및 통계 모델에서 널리 사용되는 소프트맥스(softmax) 변환의 한계를 극복하고자 ‘sparsemax’라는 새로운 활성화 함수를 제안한다. 소프트맥스는 입력 벡터 z∈ℝ^K 를 확률 단순체 Δ^{K‑1} 로 매핑하지만, 항상 모든 클래스에 양의 확률을 할당한다는 특성 때문에 희소한 출력이 필요하거나 해석 가능한 선택을 요구하는 상황에 부적합하다. 이를 해결하기 위해 저자들은 “z를 Δ^{K‑1}에 대한 유클리드 거리 최소화 문제의 해” 즉, Euclidean projection 형태로 정의된 sparsemax를 도입한다. 1. **정의 및 닫힌 형태** sparsemax(z)=argmin_{p∈Δ^{K‑1}}‖p−z‖² 로 정의된다. 이 문제는 well‑known한 simplex projection과 동일하며, 해는 “max(z_i−τ, 0)” 형태의 soft‑thresholding으로 표현된다. τ는 모든 좌표에 대해 ∑_i max(z_i−τ, 0)=1 을 만족하는 유일한 실수이며, 이를 구하기 위해 입력을 내림차순 정렬하고 k(z)=max{ k | 1+k·z_{(k)} > ∑_{j≤k} z_{(j)} } 를 찾은 뒤 τ=(∑_{j≤k(z)}z_{(j)})/k(z) 로 계산한다. 이 과정은 O(K log K) 정렬 기반 알고리즘이 기본이지만, 선형 선택 알고리즘을 이용하면 O(K) 로도 가능하다. 2. **기본 성질** - **불변성**: sparsemax(z+c·1)=sparsemax(z) (c∈ℝ) - **대칭성**: 입력 순열에 대해 결과도 동일하게 순열된다. - **극한 행동**: 온도 파라미터 τ→0⁺ 일 때, sparsemax는 최대값을 갖는 좌표들에 균등하게 할당하고, τ가 충분히 작으면 지원 집합 S(z) 가 최대값을 가진 좌표들만 남아 완전한 ‘hard’ 선택이 된다. - **스케일링**: 두‑클래스 경우 softmax는 sigmoid, sparsemax는 ‘hard sigmoid’(선형 구간

희소화된 주의 메커니즘과 다중 라벨 분류

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기