인과 그래프와 트랜스포머의 융합: DAG‑제약을 갖는 Causal Transformer 설계

인과 그래프와 트랜스포머의 융합: DAG‑제약을 갖는 Causal Transformer 설계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 정의된 인과 DAG를 이용해 트랜스포머의 어텐션을 제한하는 Causal Transformer(CaT)와, 동일한 마스킹을 적용한 완전 연결 신경망(CFCN)을 제안한다. 입력 변수들을 고차원 임베딩으로 처리하면서도 인과 구조를 보존함으로써 공변량 이동에 강인하고 해석 가능한 예측을 가능하게 한다.

상세 분석

CaT는 기존 트랜스포머의 셀프‑어텐션을 “인과 교차‑어텐션”으로 변형한다. 먼저 각 변수(노드) z∈Z에 대해 독립적인 선형 레이어를 사용해 입력 X∈ℝ^{B×|Z|×C}를 d_E 차원으로 임베딩하고, 학습 가능한 전역 임베딩 γ∈ℝ^{|Z|×d_E}를 초기화한다. 이후 Q=γW_Q, K=X_EW_K, V=X_EW_V 를 계산하고, 인접 행렬 A(위상 정렬된 DAG)와 어텐션 스코어 QK^T에 원소곱(Hadamard product)·A^T를 적용한다. 이렇게 마스킹된 어텐션은 softmax 후 V와 곱해져 O를 만든다. 다중 헤드와 여러 블록에 걸쳐 동일한 마스크가 적용되며, 각 블록의 출력은 레이어 정규화와 잔차 연결을 거쳐 다음 블록의 γ가 된다. 중요한 점은 CaT가 자기 연결(identity) 마스크를 사용하지 않아도 된다는 것으로, 이는 DAG의 비순환성을 그대로 유지한다는 의미다.

CFCN은 MADE와 유사하게 가중치 마스크를 직접 DAG에 맞춰 적용한다. 즉, 각 완전 연결 레이어의 가중치 행렬 W에 0‑1 마스크 M을 곱해, 노드 j가 i의 부모일 때만 W_{ij}가 학습 가능하도록 제한한다. 이는 전통적인 MLP가 모든 변수 간 자유로운 상호작용을 허용하는 것과 대조된다.

이러한 구조적 편향은 두 가지 주요 장점을 제공한다. 첫째, 인과 관계에 반하지 않는 spurious correlation에 의존하지 않으므로, 훈련‑테스트 분포가 변하는 공변량 이동 상황에서도 예측 성능이 크게 저하되지 않는다. 논문은 카멜‑소 배경 혼동 예시와 의료 데이터(예: 치료‑결과 관계)에서의 실험을 통해 이를 시각적으로 입증한다. 둘째, 어텐션 마스크가 직접적인 인과 그래프와 일대일 대응하므로, 각 출력이 어떤 부모 변수에 의해 결정되는지 추적이 가능해 해석성이 향상된다.

기술적 관점에서 몇 가지 주목할 점이 있다. (1) 마스크 적용은 어텐션 행렬의 계산 복잡도에 큰 영향을 주지 않으며, 기존 트랜스포머와 동일한 O(B·|Z|·d_E·h) 연산을 유지한다. (2) γ 파라미터는 각 블록마다 업데이트되므로, 초기값에 대한 의존성이 존재하지만 실험에서는 랜덤 초기화만으로도 수렴한다. (3) d_E가 입력 차원 C보다 충분히 크지 않을 경우, 변수 간 구분이 어려워지는 현상이 보고되었으며, 이는 고차원 임베딩을 사용할 때 최소 차원 선택이 중요함을 시사한다. (4) 논문은 DAG를 사전에 알고 있다고 가정하지만, 실제 응용에서는 구조 학습 혹은 전문가 지식에 의한 추정이 필요하므로, 구조 오류가 모델 성능에 미치는 영향을 추가 연구해야 한다.

전반적으로 CaT는 “구조적 인덕티브 바이어스”를 트랜스포머에 자연스럽게 삽입한 최초의 시도 중 하나이며, 기존의 자동 회귀 마스크(Granger‑causal)와는 달리 전역적인 인과 DAG를 활용한다는 점에서 차별화된다. 또한, CFCN은 DAG‑제약을 가진 MLP의 간단한 구현체로, CaT와 비교해 연산 효율성 및 해석 가능성 측면에서 베이스라인 역할을 수행한다.


댓글 및 학술 토론

Loading comments...

의견 남기기