블랙박스를 넘어: 인과 최소성을 통한 생성 모델의 식별 가능한 해석과 제어
초록
본 논문은 인과 최소성 원리를 이용해 확산 기반 이미지 모델과 자동회귀 언어 모델의 잠재 표현을 이론적으로 식별 가능하게 만든다. 계층적 선택 모델을 정의하고, 최소성(희소성·압축) 조건 하에서 잠재 변수와 학습된 표현이 일대일 대응함을 증명한다. 실험적으로 최신 생성 모델에 제약을 적용해 내부 개념 그래프를 추출하고, 이를 통해 미세 조정 및 제어가 가능함을 보여준다.
상세 분석
이 연구는 생성 모델의 불투명성을 근본적으로 해소하고자 ‘인과 최소성(causal minimality)’이라는 통계‑인과론적 원칙을 도입한다. 기존의 희소 자동인코더(SAE)와 같은 경험적 방법은 해석 가능성을 제공하지만, 이론적 보장이 부족해 결과가 주관적일 위험이 있다. 논문은 이를 보완하기 위해 ‘계층적 선택 모델(hierarchical selection model)’이라는 새로운 그래프 구조를 제시한다. 여기서 상위 개념은 하위 개념들의 특정 조합에 의해 선택(selection)되는 효과 변수이며, 전통적인 위에서 아래로 흐르는 인과 관계와는 반대 방향으로 작동한다. 이러한 구조는 복잡한 부분‑전체 관계(예: 자동차의 바퀴·문·지붕)가 자연스럽게 하나의 고수준 개념으로 결합되는 과정을 간결하게 표현한다.
인과 최소성은 두 가지 형태로 구현된다. 첫째, 그래프 내 에지 수를 최소화하는 ‘희소성(sparsity)’ 제약; 둘째, 활성화된 개념 상태를 가장 압축된 형태로 유지하는 ‘압축(compression)’ 제약이다. 논문은 조건 4.2‑iv와 부록 B.1‑iii에서 정의한 최소성 조건을 만족하면, 학습된 잠재 변수 Z와 실제 데이터 생성 과정의 진짜 잠재 변수 사이에 정규화된 선형(또는 비선형) 변환을 통한 일대일 대응이 존재함을 정리(정리 4.1)한다. 이는 연속형·이산형 모두에 적용 가능한 ‘컴포넌트‑와이즈(component‑wise) 식별 가능성’을 의미한다.
이론적 결과를 검증하기 위해 저자들은 최신 텍스트‑투‑이미지(diffusion) 모델과 대형 언어 모델에 희소성 제약을 부여한 후, 내부 표현을 SAE로 압축해 계층적 개념 그래프를 추출한다. 시각적 실험에서는 고노이즈 단계에서 추출된 개념이 ‘차량’, ‘동물’ 등 추상적인 형태를, 저노이즈 단계에서 ‘바퀴’, ‘털’ 등 세부 요소를 담당한다는 것이 확인되었다. 언어 모델에서는 토큰 수준의 선택 변수 D가 문맥에 따라 연속형 의미 벡터 Z를 선택하고, 이를 통해 특정 단어의 의미 변화를 정밀하게 조작할 수 있었다.
또한, 논문은 기존 계층적 인과 모델(예: 베이즈 트리, 선형 계층 모델)과 비교해 선택 모델이 내부 레이어 간의 밀집 연결을 피하면서도 동일한 표현력을 유지한다는 점을 강조한다. 이는 모델 해석과 제어를 위한 계산 비용을 크게 낮춘다. 한편, 한계점으로는 최소성 조건을 만족하도록 학습 목표에 직접적인 정규화 항을 삽입해야 하는 실용적 어려움, 그리고 복잡한 비선형 선택 함수 g에 대한 추정 정확도가 아직 충분히 검증되지 않았다는 점을 언급한다.
전반적으로 이 논문은 ‘인과 최소성 → 계층적 선택 모델 → 식별 가능성 → 해석·제어 가능’이라는 일관된 흐름을 제시하며, 생성 모델을 인간이 이해하고 안전하게 조작할 수 있는 이론적 토대를 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기