효율적인 컨텍스트 전파 퍼시버 아키텍처
초록
본 논문은 PerceiverAR의 한계를 극복하고, 자동회귀 언어 모델링에서 컨텍스트와 잠재 시퀀스를 동시에 활용하는 새로운 구조인 Efficient Context Propagating Perceiver(ECP)를 제안한다. ECP는 쌍별 세그먼트 어텐션을 이용해 LongLoRA와 동등한 O(n·s) 복잡도를 유지하면서도 전체 컨텍스트 정보를 효과적으로 전파한다. 실험 결과 Wikitext‑103, PG‑19, sCIFAR‑10에서 기존 최첨단 Transformer 대비 퍼플렉시티와 정확도 모두 크게 향상된다.
상세 분석
이 연구는 Transformer의 O(n²) 어텐션 비용을 완화하려는 흐름에 속하면서, 특히 PerceiverAR 구조가 가지고 있던 두 가지 근본적인 결함—‘잠재 부분만을 이용한 자동회귀 학습’과 ‘히스토리 정보의 손실적 압축’—을 체계적으로 보완한다. 저자들은 먼저 PerceiverAR 의 기본 설계를 재조명하고, 히스토리와 잠재 시퀀스를 각각 별도의 어텐션 경로에서 처리하는 Double Attention 구조를 제안한다. 여기서 히스토리 어텐션은 마스킹 없이 전체 토큰을 대상으로 하며, 잠재 어텐션은 전통적인 삼각 마스크를 적용한다. 그러나 히스토리 길이가 잠재 길이보다 클 경우 연산량이 급증한다는 단점이 있다. 이를 해결하기 위해 두 번째 패러다임인 Compressed Double Attention 을 도입, 첫 레이어에서 히스토리를 p 차원(시퀀스 차원)으로 압축하고 이후 레이어에서는 압축된 히스토리만을 사용한다. 압축 과정은 선형 변환 W_ph 로 구현되며, 압축 비율에 따라 연산량과 정보 손실 사이의 트레이드오프를 조절한다. 세 번째 접근법인 s‑Split Double Attention 은 히스토리를 크기 s 인 작은 세그먼트로 나누어 각 세그먼트 내부에서만 어텐션을 수행한다. 이때 복잡도는 O(s²) 이며, s 가 l (잠재 길이)보다 작을 경우 전체 연산량이 거의 O(l·s) 에 수렴한다. 가장 중요한 혁신은 ECP 아키텍처에서 이 s‑Split 아이디어를 확장해 Pairwise Segment Attention 을 구현하고, 인접 세그먼트 간 정보를 ‘전파 블록(PAR)’을 통해 단계적으로 교환한다. 이렇게 하면 각 레이어에서 실제로 계산되는 어텐션은 대각선 근처 두 개의 세그먼트에만 국한되지만, 이전 레이어에서 전달된 컨텍스트가 이미 인접 블록에 누적돼 있어 ‘암묵적 전역 어텐션’ 효과를 얻는다. 복잡도 측면에서는 첫 레이어가 O(l·n) (PerceiverAR와 동일)이고, 이후 레이어는 O(l·s) 또는 O(l·s·#layers) 로, LongLoRA와 동등하거나 더 낮다. 성능 면에서는 히스토리 정보를 지속적으로 활용함으로써 초기 레이어에서 손실된 장기 의존성을 복구하고, 실험 결과 Wikitext‑103 (퍼플렉시티 15.2 vs 17.8), PG‑19 (퍼플렉시티 22.4 vs 24.9), sCIFAR‑10 (정확도 84.3% vs 81.7%) 등에서 기존 PerceiverAR, Longformer, Reformer 등을 크게 앞선다. 또한, ECP 는 파라미터 수와 메모리 사용량이 비슷하거나 낮아 실제 대규모 모델 학습에 적용 가능성이 높다. 한계점으로는 s 값과 압축 비율 p 에 대한 민감도가 존재하며, 최적 하이퍼파라미터 탐색이 필요하고, 현재는 Transformer‑계열에만 비교했으며 State‑Space 모델과의 직접 비교는 부족하다. 전반적으로 ECP 는 PerceiverAR 의 구조적 약점을 보완하면서도 복잡도‑성능 트레이드오프를 효율적으로 관리한 설계로, 장기 컨텍스트를 요구하는 대규모 언어 모델에 실용적인 대안이 될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기