소프트맥스의 정보기하학: 탐색·조작을 위한 듀얼 스티어링
📝 Abstract
This paper concerns the question of how AI systems encode semantic structure into the geometric structure of their representation spaces. The motivating observation of this paper is that the natural geometry of these representation spaces should reflect the way models use representations to produce behavior. We focus on the important special case of representations that define softmax distributions. In this case, we argue that the natural geometry is information geometry. Our focus is on the role of information geometry on semantic encoding and the linear representation hypothesis. As an illustrative application, we develop “dual steering”, a method for robustly steering representations to exhibit a particular concept using linear probes. We prove that dual steering optimally modifies the target concept while minimizing changes to off-target concepts. Empirically, we find that dual steering enhances the controllability and stability of concept manipulation.
💡 Analysis
**
1. 연구 배경 및 문제 정의
- 선형 표현 가설(high‑level concepts ↔ directions) 은 최근 여러 논문에서 활용됐지만, 대부분 유클리드(평면) 기하학을 전제한다. 실제로 소프트맥스 기반 모델은 확률 분포를 통해 행동을 결정하므로, “거리”는 출력 분포의 유사성에 기반해야 한다.
- 저자는 이 격차를 메우기 위해 정보기하학(특히 Bregman 기하학)을 도입한다. KL 발산이 Bregman 발산으로 표현된다는 점을 이용해, 프라이멀(primal) 공간(λ)과 듀얼(dual) 공간(φ = ∇A(λ)) 사이의 쌍대 구조를 명시한다.
2. 핵심 이론적 기여
| 내용 | 의미 | 주요 결과 |
|---|---|---|
| Bregman(듀얼 플랫) 기하학 식별 | 소프트맥스 파라미터 공간의 자연 거리 = KL 발산 | 프라이멀·듀얼 좌표 사이에 전단(conjugate) 관계 존재 |
| 프라이멀 vs. 듀얼 보간 | e‑geodesic (프라이멀 직선) ↔ 역 KL 최소화, m‑geodesic (듀얼 직선) ↔ 정방향 KL 최소화 | 프라이멀 보간 → “AND” (공통 고확률 영역), 듀얼 보간 → “OR” (전체 고확률 영역) |
| Dual Steering 공식화 | 목표 개념을 듀얼 공간에서 이동 → 프라이멀 공간에서 최소 KL 변화 | 목표 개념을 정확히 조정하면서 비목표 개념(off‑target) 변화를 최소화 (정리 3.1) |
| 정리 1 (보간과 KL 최소화) | 프라이멀 보간은 weighted reverse KL, 듀얼 보간은 weighted forward KL | 두 보간 경로가 의미론적 차이를 갖는 근거 제공 |
3. 방법론 – Dual Steering
- 선형 프로브 β_W 를 듀얼 좌표에 적용: φ’ = φ + t·β_W (t는 스케일)
- 프라이멀 좌표 복원: λ’ = (∇A)⁻¹(φ')
- 목표 제약 β_Wᵀ λ’ = c (c는 원하는 개념 값)
- 최적화 목표: KL(P_{λ’}‖P_{λ}) 최소화 → 비목표 토큰·이미지 확률 유지
이 절차는 Euclidean Steering(λ’ = λ + t·β_W)과 달리, 프라이멀·듀얼 공간의 불일치를 해소한다는 점에서 이론적으로 타당하다.
4. 실험 결과 요약
| 모델 | 실험 시나리오 | Euclidean Steering | Dual Steering |
|---|---|---|---|
| Gemma‑3‑4B (LLM) | “author gives an insight …” 문맥에서 동사 시제 변환 | 목표 토큰 도달하지만 off‑target 토큰(예: “to”)에 확률 누수 | 목표 토큰(“maintains”)으로 직접 전이, off‑target 변동 거의 없음 |
| MetaCLIP‑2 (이미지) | “a photo of one cat” → “dog” 변환 | 목표 이미지 상승하지만 cat+dog 혼합 이미지가 Top‑1으로 부상 | 목표 이미지(“dog”)와 연관된 변형만 전이, cat+dog 이미지 억제 |
- 제어성(Controllability): Dual Steering은 목표 개념을 정확히 달성하면서 비목표 확률을 10‑20% 이하로 억제.
- 안정성(Stability): 중간 단계에서도 확률 분포가 급격히 변하지 않아, gradient‑free 조작에서도 일관된 결과를 제공.
5. 의의 및 한계
의의
- 정보기하학을 실제 모델 조작에 직접 연결, “거리” 정의가 의미론적 행동과 일치하도록 설계.
- 프라이멀·듀얼 쌍대 구조를 활용해 선형 프로브가 실제로는 듀얼 공간에 존재한다는 점을 명확히 함.
- 듀얼 스티어링은 모델 해석·제어 분야에 새로운 패러다임을 제시, 특히 프롬프트 엔지니어링이나 안전성 조정에 활용 가능.
한계
- 소프트맥스 전제: 현재 이론은 소프트맥스 기반 모델에만 적용 가능. 비소프트맥스(예: 직접적인 회귀, 순위 모델)에는 확장 필요.
- 프로브 품질 의존: β_W가 “이상적인” 선형 프로브라고 가정하지만, 실제로는 프로브 학습 과정에서 잡음이 존재할 수 있다. 프로브 품질이 낮으면 듀얼 스티어링도 기대 이하 성능을 보일 가능성.
- 계산 비용: 듀얼 좌표 ↔ 프라이멀 좌표 변환(∇A⁻¹)에는 로그-정규화 함수의 역함수 계산이 필요해, 대규모 모델에서는 추가 연산 비용이 발생한다.
- 다중 개념 상호작용: 현재는 이진 개념(예: dog↔cat)만 다루며, 다중 개념이 겹치는 상황에서의 최적화는 아직 미해결.
6. 향후 연구 방향
- 비소프트맥스 모델에 대한 일반화: 예를 들어, Gaussian Mixture 혹은 Energy‑Based 모델에 Bregman 기하학을 적용하는 방법 탐색.
- 프로브 자동 학습: 정보기하학적 손실(예: KL 기반)과 결합한 self‑supervised 프로브 학습 프레임워크 개발.
- 효율적인 역변환 알고리즘: 근사 역함수(예: Newton‑Raphson, 사전 학습된 역변환 네트워크) 도입으로 실시간 스티어링 가능하게 만들기.
- 다중 개념 동시 스티어링: 듀얼 공간에서 다중 선형 제약을 동시에 만족시키는 다목적 최적화 연구.
- 안전성·공정성 적용: 편향 완화, 민감도 조절 등 윤리적 AI 목표에 듀얼 스티어링을 적용해, 비목표 특성(예: 성별, 인종) 변화를 최소화하는 실험 진행.
**
📄 Content
내부 표현을 이해하고 조작하는 것은 신뢰할 수 있고 제어 가능한 AI 시스템을 구축하는 데 핵심적인 과제입니다.
많은 접근법이 선형 표현 가설(linear representation hypothesis) 에 기반합니다—즉, 고수준 개념(예: 감성, 진실성, 성별 등)이 모델의 표현이 존재하는 벡터 공간 안의 특정 방향에 대응한다는 생각입니다 [MYZ13; Elh+22; PCV24]. 연구자들은 이 아이디어를 활용해 다양한 아키텍처에서 개념을 식별하고 조작해 왔습니다 [NLW23; Li+23; Tur+23; Zou+23; GT24]. 그러나 결과는 다소 엇갈립니다. 표현 공간에 구조가 존재함은 분명하지만, 이러한 방법은 대개 취약(brittle) 하며, 직접적인 파인튜닝 접근법에 비해 경쟁력이 떨어지는 경우가 많습니다 [Has+23; Mak+24; Sha+25; WV25]. 이는 아직 ‘선형 표현’ 구조에 대한 충분히 깊은 이해가 부족해 견고하고 일반화 가능한 방법을 만들기엔 역부족임을 시사합니다.
1. 평면(유클리드) 가정의 한계와 내재적 구조에 대한 요구
선형 표현 방법은 종종 표현 공간이 평평하거나(또는 유클리드) 기하학적으로 단순하다는 암묵적 가정 위에 세워집니다. 그러나 이러한 가정이 성립한다는 근거는 거의 없습니다. 대신 우리는 **‘내재적(intrinsic) 구조’**에 기반한 방법을 원합니다. 즉, 모델이 실제로 행동을 생성하기 위해 사용하는 표현 간의 거리 개념이 “두 표현이 비슷한 출력을 만든다면 가깝다”는 식으로 정의되는 기하학이 필요합니다. 본 논문은 소프트맥스 기반 모델을 사례로 삼아 이 아이디어를 구체화하고, 결과적인 기하학이 해석 가능성 방법에 미치는 실용적 함의를 설명합니다.
2. 소프트맥스 기반 표현과 확률 분포
우리는 표현 벡터 (\lambda \in \Lambda \simeq \mathbb{R}^d) 가 소프트맥스 변환을 통해 확률 분포를 정의한다는 점에 주목합니다. 구체적으로, 후보 아이템 집합 (\mathcal{Y}) 에 대해 모델은 각 아이템 (y) 에 대해 (\gamma_y \in \Gamma \simeq \mathbb{R}^d) 라는 벡터 표현을 할당하고, 다음과 같이 소프트맥스 확률을 계산합니다.
[ P_\lambda(y)=\frac{\exp(\lambda^\top \gamma_y)}{\sum_{y’\in\mathcal{Y}}\exp(\lambda^\top \gamma_{y’})}, \qquad A(\lambda):=\log!\sum_{y\in\mathcal{Y}}\exp(\lambda^\top \gamma_y) ]
여기서 (A(\lambda)) 는 로그 정규화항(log‑normalizer) 입니다. 이 형태는 트랜스포머의 어텐션 [Vas+17], 대형 언어 모델(LLM)의 다음 토큰 선택 [Bro+20], 그리고 CLIP과 같은 대비 학습 모델 [Rad+21] 등 다양한 AI 아키텍처에서 나타납니다.
핵심 관찰은 두 표현 (\lambda, \lambda’) 가 유도된 확률 분포가 얼마나 가까운가가 두 벡터 사이의 ‘가까움’을 정의해야 한다는 점입니다. 이를 정형화하기 위해 정보 기하학(information geometry) 을 도입합니다 [AN00; Ban+05; Ama16].
3. 자연스러운 기하학은 Bregman(쌍대 평면) 구조
KL 발산을 이용해 두 소프트맥스 분포 사이의 거리를 정의하면
[ D_{\mathrm{KL}}(P_{\lambda},|,P_{\lambda’}) = A(\lambda’)-A(\lambda)-\nabla A(\lambda)^\top(\lambda’-\lambda) ]
가 됩니다. 오른쪽 항은 볼록 함수 (A) 가 유도하는 Bregman 발산이며, 따라서 표현 공간에 자연스럽게 부여되는 기하학은 Bregman(또는 쌍대 평면, dually‑flat) 기하학임을 알 수 있습니다.
Bregman 기하학의 핵심은 프라이멀(primal) 좌표 (\lambda) 와 쌍대(dual) 좌표 (\phi(\lambda)=\nabla A(\lambda)) 사이의 쌍대성(duality) 입니다. (A) 가 엄격히 볼록하면 역함수 (\nabla A^*) 가 존재하여
[ \lambda = \nabla A^*(\phi) ]
가 됩니다. 이렇게 하면 프라이멀 공간 (\Lambda) 와 쌍대 공간 (\Phi) 가 전단사(bijection) 로 연결됩니다. 동일한 확률 분포 (P_\lambda) 를 두 좌표계가 서로 다른 파라미터화로 표현한다는 의미입니다.
4. 두 점 사이의 보간(Interpolation) – 프라이멀 vs. 쌍대
두 표현 (\lambda_0, \lambda_1) 사이를 연결하는 방법은 프라이멀(e‑geodesic) 과 쌍대(m‑geodesic) 두 가지가 있습니다.
프라이멀 보간 (e‑geodesic)
[ \lambda_t = (1-t)\lambda_0 + t\lambda_1,\qquad t\in[0,1] ] 이는 프라이멀 좌표계에서 직선 경로를 따라가며, 역 KL(Reverse KL) 을 가중합 최소화합니다.쌍대 보간 (m‑geodesic)
[ \phi_t = (1-t)\phi(\lambda_0) + t\phi(\lambda_1),\qquad \lambda_t = \nabla A^*(\phi_t) ] 이는 쌍대 좌표계에서 직선 경로를 따라가며, 정방향 KL(Forward KL) 을 가중합 최소화합니다.
정리 1 (보간과 KL 최소화)
프라이멀 보간 (\lambda_t) 은
[
\min_{\lambda};(1-t)D_{\mathrm{KL}}(P_{\lambda},|,P_{\lambda_0}) + t D_{\mathrm{KL}}(P_{\lambda},|,P_{\lambda_1})
]
를, 쌍대 보간 (\phi_t) 은
[
\min_{\lambda};(1-t)D_{\mathrm{KL}}(P_{\lambda_0},|,P_{\lambda}) + t D_{\mathrm{KL}}(P_{\lambda_1},|,P_{\lambda})
]
를 각각 최소화합니다.
역 KL는 ‘AND’ 연산에, 정방향 KL은 ‘OR’ 연산에 유사한 행동을 보입니다. 즉, 프라이멀 보간은 두 분포가 동시에 높은 확률을 갖는 영역(교집합)을 강조하고, 쌍대 보간은 두 분포가 각각 높은 영역(합집합)을 모두 포괄합니다.
5. 실험: LLM과 CLIP에서의 보간 차이
LLM(예: Gemma‑3‑4B)과 CLIP(예: MetaCLIP‑2) 모델에 대해 프라이멀·쌍대 보간을 적용하면 다음과 같은 현상이 관찰됩니다.
- 프라이멀 보간 중간점에서는 두 입력이 모두 가능하게 하는 토큰(또는 이미지)이 높은 확률을 차지하고, 한쪽에만 특화된 토큰은 크게 억제됩니다. 예를 들어 “a black dog”와 “a white dog”를 보간했을 때, 중간점에서는 “black‑and‑white dog” 이미지가 두 입력의 교집합으로서 가장 높은 확률을 얻습니다.
- 쌍대 보간 중간점에서는 두 입력이 각각 제시할 수 있는 모든 토큰이 골고루 배분됩니다. 즉, “black dog”와 “white dog” 모두에 해당하는 토큰이 동시에 높은 확률을 유지하며, 이는 두 분포의 선형 혼합과 동일합니다.
이 결과는 쌍대성 구조가 표현 공간의 의미론적 구조를 포착하는 데 필수적임을 보여줍니다.
6. 선형 표현 가설과 ‘스티어링(steering)’의 결합
다음으로 우리는 대조(binary) 개념(예: male → female, dog → cat)을 대상으로 스티어링을 고찰합니다.
예시로 “dog → cat”을 생각하면, (W=0) 은 기본 개념(‘dog’), (W=1) 은 목표 개념(‘cat’)을 의미합니다. 여기서 선형 프로브(linear probe) (\beta_W) 가 존재한다 가정합니다.
[ \beta_W^\top \gamma_y = \begin{cases} b_W & \text{if } y \text{ belongs to class } W\ \text{(다른 값)} & \text{otherwise} \end{cases} ]
이는 로지스틱 회귀의 정의와 동일합니다. 실제로 어떤 프로브가 “이상적인”지, 어떻게 찾을지는 본 논문의 범위를 벗어나지만, 프로브가 주어졌을 때 어떻게 표현을 조작해야 목표 개념을 바꿀 수 있는지를 탐구합니다.
6.1 유클리드 스티어링(Euclidean steering)
전통적인 방법은 프라이멀 공간에 직접 프로브 벡터를 더하는 것입니다.
[ \lambda_t = \lambda_0 + t,\beta_W ]
이때 (t) 가 충분히 크면 (\beta_W^\top \lambda_t \gg 0) 가 되어 목표 개념이 강하게 활성화됩니다. 그러나 프로브 (\beta_W) 는 쌍대 공간의 원소(즉, (\Lambda) 위의 선형 연산자)이며, 이를 프라이멀 공간에 그대로 더하는 것은 기하학이 유클리드일 때만 타당합니다. 따라서 유클리드 스티어링은 비유클리드(비평면) 구조에서는 근본적인 오류를 내포하고 있습니다.
6.2 쌍대 스티어링(dual steering)
위의 문제를 해결하기 위해 쌍대 공간에서 프로브를 더하고, 그 결과를 프라이멀 공간으로 다시 매핑하는 방법을 제안합니다.
[ \phi_t = \phi(\lambda_0) + t,\beta_W,\qquad \lambda_t = \nabla A^*(\phi_t) ]
이 방식은 오프‑타깃(off‑target) 개념에 대한 영향을 최소화하면서 목표 개념만을 조정한다는 이론적 보장을 가집니다.
7. 오프‑타깃 개
이 글은 AI가 자동 번역 및 요약한 내용입니다.