소프트맥스 정보기하학: 의미 탐색과 조정
초록
본 논문은 소프트맥스 출력으로 정의되는 신경망 표현이 정보기하학적 구조를 띤다는 가설을 제시하고, 이를 기반으로 의미 개념을 선형 탐지기로 정확히 조작하는 ‘듀얼 스티어링’ 방법을 제안한다. 이론적 증명을 통해 목표 개념 변형을 최적화하면서 비목표 개념에 미치는 영향을 최소화함을 보이며, 실험을 통해 조작의 안정성과 제어성을 크게 향상시킴을 확인한다.
상세 분석
본 연구는 현대 대형 언어·비전 모델이 내부적으로 고차원 벡터 공간에 의미 정보를 인코딩한다는 전제에서 출발한다. 특히, 최종 출력이 소프트맥스 확률분포로 변환되는 경우, 해당 벡터는 자연스럽게 확률분포 매니폴드 위에 위치하게 되며, 이는 정보기하학(Fisher 정보 메트릭)으로 정의되는 리만 계량을 통해 거리와 곡률을 측정할 수 있음을 의미한다. 논문은 먼저 소프트맥스 함수 (p_i = \frac{e^{z_i}}{\sum_j e^{z_j}})가 정의하는 파라미터 공간 (\mathbf{z})가 확률단순체(simplex) 위의 아미노베르트(Amari) 연결을 갖는 d-차원 통계다양체임을 수학적으로 증명한다. 이때 Fisher 정보 행렬은 (\mathbf{F} = \mathrm{diag}(p) - p p^\top) 로 표현되며, 이는 각 클래스 간의 상호작용을 정량화한다.
연구진은 “선형 표현 가설”(Linear Representation Hypothesis)을 재조명한다. 이 가설은 의미 개념이 고차원 공간에서 선형 서브스페이스 혹은 하이퍼플레인으로 근사될 수 있다는 주장이다. 정보기하학적 관점에서 보면, 선형 탐지기 (w^\top \mathbf{z} + b)는 해당 서브스페이스에 대한 접평면을 정의하고, 그 기울기와 절편은 Fisher 메트릭에 의해 왜곡된 좌표계에서 해석될 수 있다. 따라서 단순히 유클리드 거리 기반으로 탐지기를 학습하는 것이 아니라, 정보기하학적 거리(예: KL 발산)와 정렬된 방향을 고려해야 의미가 보존된다.
핵심 기여는 “듀얼 스티어링”(Dual Steering)이라는 새로운 조정 메커니즘이다. 기존의 ‘프롬프트 엔지니어링’이나 ‘레이어 워핑’은 목표 개념을 강화하면서도 부수적인 개념을 의도치 않게 변형시키는 부작용이 있었다. 듀얼 스티어링은 두 개의 선형 탐지기 (w_{\text{target}}, w_{\text{off}})를 동시에 고려한다. 목표 탐지기의 출력은 원하는 방향으로 증폭하고, 오프‑타깃 탐지기의 출력은 최소화하도록 최적화 문제를 설정한다. 구체적으로, 변형 벡터 (\Delta \mathbf{z})는 다음과 같은 이차형식 최소화 문제를 푼다:
\
댓글 및 학술 토론
Loading comments...
의견 남기기