깊이와 병렬 시퀀스 모델의 표현력: 리 대수적 관점

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 병렬화가 가능한 순차 모델(Transformer 변형, 구조화된 상태공간 모델 등)의 깊이가 표현력에 미치는 영향을 리 대수 이론을 통해 정량화한다. 깊이가 증가할수록 비가환(비교환) 연산을 근사하는 오류가 지수적으로 감소한다는 이론적 경계와, 이를 검증하는 심볼릭 워드와 연속 상태 추적 실험 결과를 제시한다.

상세 분석

논문은 먼저 순차 모델을 연속 시간 제어 시스템, 즉 상태공간 모델(SSM)로 해석하고, 이 시스템이 생성하는 흐름을 리 군(G)와 그 리 대수(g)로 매핑한다. 리 대수의 구조—특히 가환(abelian), 영가( nilpotent), 가용(solvable)—는 모델이 처리할 수 있는 연산의 복잡도를 직접적으로 반영한다. 가환 리 대수는 모든 연산이 순서에 무관하므로, 순서에 민감한 작업(예: 비가환 군의 워드 문제)을 정확히 시뮬레이션할 수 없으며, 이는 Lemma 3.1에서 “제한된(abelian) SSM은 일반 SSM을 시뮬레이션할 수 없다”는 형태로 정리된다.

오류 분석의 핵심 도구는 Magnus 전개이다. 시간 순서에 따라 변하는 입력 경로 x(t)에 대해 상태전이 행렬 Φ(t,0)를 지수 형태로 전개하면, 두 번째 항 Ω₂가 바로 두 입력 시점 사이의 리 대수적 교환량(

깊이와 병렬 시퀀스 모델의 표현력: 리 대수적 관점

초록

상세 분석

댓글 및 학술 토론

의견 남기기