베이지안 풍동에서 트랜스포머는 정확한 베이지안 추론을 구현한다

읽는 시간: 5 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.22471
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

현대 시퀀스 모델은 종종 베이지안 학습자처럼 행동하지만, 이것이 진정한 확률적 추론을 반영하는지 아니면 과제 특화 휴리스틱에 불과한지는 아직 명확하지 않다. 우리는 진정한 사후분포가 닫힌 형태로 알려져 있고 기억이 불가능하도록 설계된 베이지안 풍동(통제된 환경)을 도입하여 이 질문을 실증적으로 해결한다. 이러한 설정에서 작은 트랜스포머는 필터링과 가설 제거 작업에 대해 10⁻³~10⁻⁴ 비트 정확도로 정확한 베이지안 사후분포를 재현하는 반면, 용량이 맞춰진 MLP는 수십 배 정도의 오차를 보인다. 베이지안 계산을 세 가지 추론 원시 연산으로 분해한다: (i) 믿음 누적 – 증거를 통합해 진행 중인 사후분포를 업데이트, (ii) 믿음 전송 – 확률적 동역학을 따라 믿음을 전파, (iii) 랜덤 액세스 바인딩 – 위치가 아닌 내용으로 저장된 가설을 검색. 서로 다른 과제는 이러한 원시 연산의 서로 다른 조합을 요구하고, 서로 다른 아키텍처는 서로 다른 조합을 구현한다. 트랜스포머, Mamba, LSTM, MLP를 전단사 학습, HMM 필터링, 연관 기억 과제에 적용해 비교한 결과, 트랜스포머는 세 가지 원시 연산을 모두 구현하고, Mamba는 누적과 전송은 가능하지만 랜덤 액세스 바인딩에 약점이 있으며, LSTM은 정적 충분통계량의 누적만 구현하고, MLP는 어느 것도 구현하지 못한다는 것이 밝혀졌다. 기하학적 진단은 서로 직교하는 키 기반, 사후 엔트로피에 의해 매개된 저차원 값 매니폴드, 그리고 Mamba에서는 HMM 숨은 상태에 대응하는 다섯 개의 이산 클러스터를 보여준다. 이 결과는 베이지안 계산이 단일한 형태가 아니라 과제가 요구하는 추론 원시 연산과 아키텍처가 제공하는 구현 메커니즘에 따라 실현 가능성이 달라진다는 것을 시사한다. 베이지안 풍동은 소규모 검증 가능한 시스템을 대규모 언어 모델에서 관찰되는 추론 현상과 기계적으로 연결하는 기반을 제공한다.

💡 논문 핵심 해설 (Deep Analysis)

이 논문은 “베이지안 풍동”이라는 혁신적인 실험 프레임워크를 제시함으로써, 현대 딥러닝 모델이 실제로 베이지안 추론을 수행하는지, 아니면 특정 과제에 맞춘 휴리스틱을 단순히 모방하는지에 대한 근본적인 질문에 답하고자 한다. 풍동이라는 용어는 물리학에서 복잡한 유동 현상을 제어된 실험실 환경에서 재현하는 장치를 의미하는데, 여기서는 확률적 모델링에서 사후분포가 수학적으로 정확히 계산될 수 있는 상황을 인위적으로 만들었다는 점에서 비유적으로 사용된다. 이러한 환경에서는 (1) 사후분포가 닫힌 형태로 존재하고, (2) 모델이 훈련 데이터에 대한 단순 기억을 통해 정답을 외우는 것이 이론적으로 불가능하도록 설계되었다. 따라서 모델이 보여주는 성능은 진정한 추론 능력의 지표가 된다.

실험에 사용된 주요 과제는 세 가지로 구분된다. 첫 번째는 “bijection learning”이라 불리는 입력과 출력 사이의 일대일 매핑을 학습하는 작업으로, 여기서는 모델이 입력 시퀀스에 포함된 변환 규칙을 추론해야 한다. 두 번째는 은닉 상태가 존재하는 확률적 시스템인 HMM(Hidden Markov Model)의 필터링 문제로, 관측 시퀀스가 주어졌을 때 현재 숨은 상태에 대한 베이지안 사후분포를 지속적으로 업데이트한다. 세 번째는 “associative recall” 즉, 내용 기반 검색을 요구하는 작업으로, 모델은 이전에 저장된 가설(또는 메모리) 중에서 현재 쿼리와 의미적으로 일치하는 항목을 찾아야 한다. 논문은 이 세 과제가 각각 베이지안 계산의 서로 다른 원시 연산을 필요로 한다고 주장한다. 구체적으로, (i) 믿음 누적은 새로운 증거를 기존 사후분포에 통합하는 과정이며, (ii) 믿음 전송은 시스템이 동적으로 변화할 때 사후분포를 시간 축을 따라 전파하는 메커니즘, (iii) 랜덤 액세스 바인딩은 내용 기반 주소 지정(content‑based addressing)으로 메모리 슬롯을 검색하는 능력을 의미한다.

다양한 아키텍처를 비교한 결과는 흥미롭다. 트랜스포머는 자체적인 어텐션 메커니즘을 통해 키‑값 쌍을 동적으로 생성하고, 이를 통해 (i)‑(iii) 모두를 구현한다. 어텐션 스코어는 사실상 “키”와 “쿼리” 사이의 유사도를 측정해 내용 기반 검색을 수행하므로, 랜덤 액세스 바인딩을 자연스럽게 제공한다. 또한, 어텐션 가중치의 누적은 믿음 누적에 해당하고, 다중 레이어와 잔차 연결을 통해 시간적 전파가 가능해 믿음 전송을 수행한다. 반면, Mamba와 같은 상태공간 모델은 순환적인 상태 전파와 입력‑출력 매핑을 통해 (i)와 (ii)를 효과적으로 구현하지만, 키‑값 구조가 명시적으로 존재하지 않아 내용 기반 검색이 약하다. LSTM은 내부 셀 상태에 충분통계량을 누적하는 데는 강하지만, 셀 상태 자체가 고정된 차원에 제한돼 복잡한 내용 기반 바인딩을 수행하기 어렵다. 마지막으로 MLP는 순전파만을 수행하므로, 시계열 의존성이나 내용 기반 검색을 전혀 구현하지 못한다.

기하학적 진단을 통해 각 모델의 내부 표현 구조를 시각화했는데, 트랜스포머의 키 벡터는 서로 직교하는 고차원 기저를 형성하고, 값 벡터는 사후 엔트로피에 따라 저차원 매니폴드 위에 매핑된다. 이는 모델이 사후분포의 불확실성을 직접적으로 인코딩한다는 증거다. Mamba는 HMM의 숨은 상태에 대응하는 다섯 개의 이산 클러스터를 형성했으며, 이는 모델이 상태 전파를 수행하면서도 어느 정도 내용 기반 구분을 유지한다는 것을 의미한다. LSTM과 MLP는 이러한 구조적 구분이 거의 없으며, 내부 표현이 단순히 입력의 선형 변환에 머물러 있다.

결론적으로, 베이지안 추론은 하나의 통합된 알고리즘이 아니라, 과제가 요구하는 원시 연산들의 조합에 따라 구현 가능성이 달라지는 모듈식 과정이다. 트랜스포머는 모든 필수 원시 연산을 제공함으로써 작은 규모에서도 정확한 베이지안 사후분포를 재현할 수 있었으며, 이는 대규모 언어 모델이 보여주는 “베이지안적” 행동이 동일한 메커니즘에 기반할 가능성을 시사한다. 베이지안 풍동이라는 실험적 토대는 앞으로 더 복잡한 인지 현상을 작은 검증 가능한 시스템과 연결짓는 데 중요한 역할을 할 것으로 기대된다.

📄 논문 본문 발췌 (Translation)

현대 시퀀스 모델은 종종 베이지안 학습자처럼 보이지만, 이것이 실제 확률적 추론을 반영하는지 혹은 과제에 특화된 휴리스틱에 불과한지는 아직 명확하지 않다. 우리는 진정한 사후분포가 닫힌 형태로 알려져 있고 기억이 이론적으로 불가능하도록 설계된 베이지안 풍동(통제된 환경)을 도입하여 이 질문을 실증적으로 해결한다. 이러한 설정에서 작은 트랜스포머는 필터링 및 가설 제거 작업에 대해 10⁻³~10⁻⁴ 비트 정확도로 정확한 베이지안 사후분포를 재현하는 반면, 용량이 맞춰진 MLP는 수십 배 정도의 오차를 보인다. 베이지안 계산을 세 가지 추론 원시 연산으로 분해한다: (i) 믿음 누적 – 증거를 통합해 진행 중인 사후분포를 업데이트, (ii) 믿음 전송 – 확률적 동역학을 따라 믿음을 전파, (iii) 랜덤 액세스 바인딩 – 위치가 아닌 내용으로 저장된 가설을 검색. 서로 다른 과제는 이러한 원시 연산의 서로 다른 부분 집합을 요구하고, 서로 다른 아키텍처는 서로 다른 부분 집합을 구현한다. 트랜스포머, Mamba, LSTM, MLP를 전단사 학습, HMM 필터링, 연관 기억 과제에 적용해 비교한 결과, 트랜스포머는 세 가지 원시 연산을 모두 구현하고, Mamba는 누적과 전송은 가능하지만 랜덤 액세스 바인딩에 약점이 있으며, LSTM은 정적 충분통계량의 누적만 구현하고, MLP는 어느 것도 구현하지 못한다는 것이 밝혀졌다. 기하학적 진단은 서로 직교하는 키 기반, 사후 엔트로피에 의해 매개된 저차원 값 매니폴드, 그리고 Mamba에서는 HMM 숨은 상태에 대응하는 다섯 개의 이산 클러스터를 보여준다. 이 결과는 베이지안 계산이 단일한 형태가 아니라 과제가 요구하는 추론 원시 연산과 아키텍처가 제공하는 구현 메커니즘에 따라 실현 가능성이 달라진다는 것을 시사한다. 베이지안 풍동은 소규모 검증 가능한 시스템을 대규모 언어 모델에서 관찰되는 추론 현상과 기계적으로 연결하는 기반을 제공한다. 현재 Google DeepMind 소속이며, 연구는 Dream Sports 재직 시 수행되었다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키