다중 세계 모델을 학습한 트랜스포머의 내부 조직

본 논문은 “MetaOthello”라는 통제된 실험 플랫폼을 제시한다. MetaOthello는 8×8 보드와 3가지 타일 상태(흰, 검은, 빈)를 공유하면서도 검증 규칙(V)과 업데이트 규칙(U)을 변형해 서로 다른 Othello 게임을 만든다. Classic은 기존 Othello 규칙을, NoMidFlip은 외곽 두 칸만 뒤집는 변형, DelFlank은 인접 타일만 허용하고 뒤집힌 타일을 삭제하는 변형, Iago는 토큰 집합과 실제 좌표 사이에 임의의 전단 사상 ϕ를 적용해 토큰‑좌표 매핑을 완전히 뒤바꾼 변형이다. 이러한 변형들은 “문법은 동일하지만 물리(규칙)가 다르다”는 특성을 갖는다. 데이터 생성은 각 변형별 20 M 시퀀스를 순수 학습용으로, 두 변형을 섞어 40 M 시퀀스를 혼합 학습용으로 만든다. 모델은 8‑layer, 8‑head, d=512 크기의 디코더‑전용 트랜스포머이며, 컨텍스트 윈도우는 59 토큰(최대 60수까지)이다. 학습은 250 epoch 진행한다. 성능 평가는 보드 상태에 대한 엔트로피 기반 정규화 KL‑다이버전스 α를 사용해, 무작위 추측 대비 실제 예측 능력을 공정히 비교한다. 모든 모델이 α≈0.99 이상의 거의 최적 성능을 보였으며, 혼합 모델은 약 0.5 % 정도만 성능 저하를 보였다. 핵심 분석은 선형 프로브와 교차‑프로브 개입을 통해 수행된다. 각 레이어의 residual stream에 대해 “내가(내 타일)”, “당신이(상대 타일)”, “빈칸”을 디코딩하는 192 × 512 행렬을 학습한다. Classic과 변형 간 프로브 가중치의 코사인 유사도를 측정했을 때, NoMidFlip은 원시 코사인 0.95 수준으로 높은 일치를 보였고, DelFlank은 원시 0.67이지만 Procrustes 정렬 후 0.90 이상으로 상승했다. 이는 서로 다른 규칙이지만 내부 표현이 동일한 기하학적 구조(정규 직교 변환)로 매핑될 수 있음을 의미한다. 교차‑프로브 개입 실험에서는 Classic 프로브를 사용해 DelFlank이나 NoMidFlip의 보드 상태를 조작했을 때, 동일 변형 프로브를 사용한 경우와 거의 동일한 성공률을 기록했다. 즉, 프로브 가중치가 레이어 전반에 걸쳐 공유된 보드 상태 표현을 조작할 수 있음을 입증한다. 이는 “표현 유사성”이 단순 통계적 일치가 아니라 실제 인과적 활용까지 일치한다는 강력한 증거다. Iago 실험에서는 토큰‑좌표 매핑이 완전히 뒤바뀐 상황에서도, Classic과 Iago 프로브를 Procrustes 정렬하면 코사인 0.98에 달하는 높은 정렬도를 얻었다. 이는 모델이 토큰 표면 형태와 무관하게 보드 상태라는 추상적 구조를 학습한다는 것을 보여준다. 레이어별 분석에서는 초기 레이어가 게임‑무관한 보드 상태를, 중간 레이어가 게임 식별자를, 최종 레이어가 규칙‑특화 연산을 수행한다는 “계층적 라우팅” 현상이 관찰되었다. 이는 모델이 중복된 정보를 최소화하고, 겹치는 규칙은 공유, 충돌하는 규칙은 후속 레이어에서 분리하는 효율적 메모리 사용 전략을 채택한다는 의미다. 결과적으로 논문은 세 가지 주요 통찰을 제공한다. 첫째, 다중 세계 모델이 별도 서브네트워크가 아니라 공유된 보드 상태 표현 위에 겹쳐진 구조로 존재한다. 둘째, 토큰‑레벨 차이에도 불구하고 정규 직교 변환을 통해 동일한 내부 표현으로 정렬될 수 있다. 셋째, 규칙 겹침 정도에 따라 레이어별 역할이 구분되는 계층적 라우팅 메커니즘이 존재한다. 이러한 발견은 대규모 멀티모달·멀티태스크 모델이 어떻게 이질적인 규칙 체계를 동시에 내부화하는지를 이해하는 데 중요한 실험적 토대를 제공한다. MetaOthello는 향후 더 복잡한 자연어·코드·수학 등 다양한 도메인에서 다중 세계 모델을 해석하고 설계하는 데 활용될 수 있는 유용한 벤치마크가 될 것이다.

다중 세계 모델을 학습한 트랜스포머의 내부 조직

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기