스펙트럼 텐서 변환으로 구현한 파라미터 효율적인 트랜스포머
초록
본 논문은 임베딩 차원을 L‑product 기반의 스펙트럼 분해로 재구성하여, 토큰 표현을 주파수‑슬라이스 텐서로 변환하고 변환 도메인에서 어텐션·FFN을 수행하는 Tensor‑Transformer를 제안한다. DCT를 적용한 실험에서 p=4일 때 인코더 파라미터를 최대 75 % 감소시키면서 IMDB와 AG News에서 기존 BERT‑base 수준의 정확도를 유지한다.
상세 분석
이 연구는 기존 트랜스포머가 임베딩 차원에서 발생시키는 과잉 파라미터 문제를 근본적으로 해결하고자, 3차 텐서에 정의된 L‑product(선형 변환을 적용한 텐서 곱)를 활용한다. 핵심 아이디어는 토큰 임베딩을 (배치 × 시퀀스 × 임베딩) 형태에서 (배치 × 시퀀스 × p) 텐서로 재구성하고, p개의 스펙트럼 슬라이스에 대해 각각 독립적인 어텐션·피드포워드 연산을 수행한다는 점이다. 여기서 L‑transform은 DCT와 같은 실수 직교 변환을 사용해 각 슬라이스를 주파수 영역으로 이동시키며, L‑product은 변환된 슬라이스들에 대해 행렬 곱을 수행한 뒤 역변환을 적용한다.
수학적으로 L‑product는 변환 도메인에서 블록 대각선 형태의 연산을 만들기 때문에, 각 슬라이스는 서로 독립적인 “서브‑트랜스포머”처럼 동작한다. 논문은 이를 정리하여 “스펙트럼 등가성(spectral equivalence)” 정리를 제시한다. 즉, 전체 인코더는 p개의 평행 트랜스포머가 차원 d/p의 임베딩을 처리하는 것과 동일한 표현력을 갖지만, 전체 파라미터 수는 약 1/p로 감소한다(편향·정규화 파라미터는 제외).
이 구조는 단순히 임베딩 차원을 나누는 것이 아니다. 역변환 단계에서 모든 슬라이스가 다시 합쳐지기 때문에, 전역적인 주파수 혼합이 이루어져 각 서브‑트랜스포머가 학습한 정보를 서로 교환한다. 따라서 모델은 저주파 성분을 강조하거나 고주파 성분을 억제하는 “주파수 스케일링”을 학습할 수 있다. 이는 특히 텍스트 분류와 같이 전역적인 의미 파악이 중요한 작업에서 일반화 향상으로 이어진다.
실험에서는 DCT 기반 L‑transform을 사용했으며, 파라미터 압축 비율 p=2, 4, 8에 대해 IMDB(감성 분석)와 AG News(주제 분류) 데이터셋을 평가했다. p=4일 때 인코더 파라미터가 75 % 감소했음에도 불구하고, IMDB에서는 기존 BERT‑base와 동등하거나 약간 높은 정확도를 기록했다. AG News에서는 중간 규모(width = 384)에서는 약간의 정확도 손실이 있었지만, BERT‑base(d=768) 수준에서는 압축 후 정확도가 원본과 동일하게 회복되었다. 이는 파라미터 감소가 모델 용량을 크게 해치지 않으며, 스펙트럼 가중치가 손실을 보완한다는 것을 시사한다.
또한, 연산 측면에서 L‑transform과 역변환은 FFT‑유사 복잡도(O(N log N))를 가지며, 슬라이스 별 연산은 병렬화가 용이해 실제 GPU 환경에서 wall‑clock 시간 절감 효과도 기대된다. 다만, 현재 구현은 슬라이스를 순차적으로 처리하기 때문에 최적화 여지가 남아 있다.
한계점으로는 (1) 변환 선택이 모델 성능에 미치는 영향에 대한 체계적인 분석이 부족하고, (2) 대규모 사전학습(예: GPT‑3 수준)에서의 스케일링 실험이 부재하며, (3) 변환 도메인에서의 정규화와 드롭아웃 적용 방법이 아직 탐색 단계에 머물러 있다. 향후 연구에서는 다양한 직교 변환(예: Haar, Wavelet)과 혼합 변환을 시험하고, 사전학습 단계부터 L‑Tensor 구조를 적용해 대규모 언어 모델에 대한 효율성을 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기