적응형 토큰 수준 하이브리드 어텐션을 위한 신경 어텐션 탐색 선형
초록
본 논문은 토큰별로 소프트맥스와 선형 어텐션을 혼합 적용하는 NAtS‑L 프레임워크를 제안한다. 토큰의 장기 의존성 여부를 자동으로 판단해 소프트맥스 어텐션을, 단기 영향만 있는 토큰은 선형 어텐션을 사용함으로써 계산 복잡도를 크게 낮추면서도 기존 트랜스포머와 동등한 표현력을 유지한다.
상세 분석
NAtS‑L은 기존 선형 어텐션 모델이 갖는 “고정된 숨은 상태 크기”에 의한 표현력 한계를 보완하기 위해, 토큰 수준에서 어텐션 연산을 동적으로 선택한다는 점에서 혁신적이다. 핵심 아이디어는 각 토큰(또는 토큰 청크)에 대해 “Attention Score Layer”를 통해 소프트맥스와 선형 어텐션 중 어느 것이 더 적합한지를 점수화하고, 최고 점수를 받은 연산을 적용하는 것이다. 이 점수 레이어는 청크 전체에 대한 평균 풀링 후 선형 변환으로 구현돼 연산 오버헤드가 최소화된다.
선형 어텐션은 KV 값을 하나의 고정 차원 숨은 상태 sₜ에 압축하고, Q와 sₜ의 내적으로 출력을 계산한다. 이는 O(L·d²) 복잡도로 기존 O(L²) 소프트맥스 어텐션에 비해 크게 효율적이다. 반면, 소프트맥스 어텐션은 QKᵀ에 소프트맥스 함수를 적용해 전체 KV를 직접 참조하므로 장기 의존성을 완벽히 보존한다. NAtS‑L은 청크를 두 집합 t_la(선형 청크)와 t_nla(비선형 청크)로 분리하고, 각각에 맞는 마스크 M_la, M_nla를 구성해 연산을 병렬화한다. 이렇게 하면 비활성 청크에 대한 불필요한 KV 로딩을 방지해 메모리와 연산을 절감한다.
학습 과정에서는 소프트맥스 마스크와 선형 마스크의 그래디언트를 각각 식(14)와 식(16)으로 계산한다. 비활성 청크에 대해서는 그래디언트를 0으로 설정해 O(L²+L_la) 비용을 O(L+L_la) 수준으로 낮춘다. 이는 기존 Neural Attention Search(NAtS)가 전체 토큰에 대해 스패스 어텐션을 적용해 발생하던 비용을 크게 개선한다.
실험에서는 다양한 장기 컨텍스트 작업(예: 언어 모델링, 문서 요약)에서 NAtS‑L이 순수 소프트맥스 트랜스포머 대비 3045% 정도의 연산량 감소를 보이면서도 정확도는 0.20.5% 수준으로 거의 동일하거나 약간 상회한다는 결과를 제시한다. 특히, 토큰이 장기 의존성을 필요로 하는 경우에만 소프트맥스 어텐션을 활성화함으로써, 메모리 사용량도 기존 모델 대비 40% 이상 절감한다.
이 논문은 토큰 수준 어텐션 선택이라는 새로운 탐색 공간을 정의하고, 이를 효율적인 그라디언트 기반 최적화와 결합함으로써 “하이브리드 어텐션”을 실용적인 수준으로 끌어올렸다. 향후에는 더 정교한 토큰 특성 추출기나 멀티‑헤드 수준에서의 선택 메커니즘을 도입해 성능‑효율 트레이드오프를 더욱 미세 조정할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기