내용 기반 라우팅의 한계와 성공 조건: 하이브리드 시퀀스 모델에서 주의 메커니즘의 역할
초록
본 논문은 하이브리드 순환‑주의 아키텍처에서 라우터가 토큰을 선택하기 위해 필요한 표현을 체계적으로 조사한다. 20여 개 실험을 통해 소프트맥스 주의 한 층이 34차원 잠재 서브스페이스를 형성해 98 % 이상의 라우팅 정확도를 달성함을 발견하고, 이 서브스페이스는 코사인 유사도나 무작위 투영으로는 포착되지 않으며, 대비학습으로도 재구성되지 않는다. 재귀·선형 주의·밴딧 등 12가지 대안은 15‑29 % 수준에 머무르고, Bloom 필터와 BM25 같은 비학습 인덱스는 82‑91 %의 성능을 보여 중간 영역을 메운다. 결과는 라우팅 패러독스를 해소하고, 주의가 단순 연산이 아니라 관계 정보를 임베딩에 기록하는 “표현 생성기”임을 제시한다.
상세 분석
이 연구는 하이브리드 모델에서 라우터가 “어떤 토큰에 고비용 주의를 할당할 것인가”를 결정하는데 필요한 표현이 무엇인지 근본적으로 묻는다. 실험 설계는 FCI(Flow‑Council‑Investigator)라는 모듈식 프레임워크를 도입해 라우터가 접근하는 입력 표현만을 자유롭게 교체할 수 있게 함으로써, 동일한 학습 목표와 데이터셋 하에서 9가지 표현 유형(순환 상태, 원시 임베딩, 양방향 흐름 등)과 4가지 라우팅 메커니즘(점곱 스코어, 상위‑k 선택, 인접 확장, 라우팅 손실) 그리고 2가지 학습 신호(직접 라우팅 손실, 간접 태스크 손실)를 조합한 20여 개 실험을 수행했다.
핵심 결과는 “단 하나의 소프트맥스 주의 층이 라우팅 성공에 필수적이며 충분하다”는 점이다. 주의 층이 없을 경우 라우팅 정확도는 1‑2 % 수준에 머물러 거의 무작위와 다름없다. 반면 한 층만 추가하면 정확도가 98 %까지 급등한다. 이 전이 현상은 학습 초기에 9 epoch 동안 정체된 뒤 10번째 epoch에 급격히 발생하며, 이는 물리학의 상전이 혹은 최근에 보고된 ‘grokking’ 현상과 유사하다.
왜 주의가 이렇게 강력한가를 탐구한 결과, 라우팅 신호는 고차원(128‑D) 공간 전체에 퍼져 있는 것이 아니라 약 34 D의 저차원 서브스페이스에 집중돼 있음을 SVD 분석을 통해 확인했다. 이 서브스페이스는 코사인 유사도 기준으로는 토큰 간 거리가 오히려 멀어 보이지만, 라우터가 학습한 선형 투영(W_q, W_k)을 통해서만 접근 가능하다. 무작위 투영을 사용하면 성능이 2.6 %로 급락하고, 대비학습(contrastive pretraining)으로 사전학습된 표현 역시 이 서브스페이스를 재구성하지 못한다. 즉, 주의 메커니즘이 단순히 “쌍별 매칭을 계산”하는 것이 아니라, 그 결과를 임베딩 공간에 ‘쓰기(write)’ 함으로써 이후 라우터가 효율적으로 읽을 수 있는 구조를 만든다.
대안 메커니즘을 살펴보면, 순환 기반(단방향·양방향), 선형 주의, 메모리 뱅크, 컨텍스추얼 밴딧( LinUCB, Thompson, OFUL) 등 12가지 접근법은 모두 15‑29 %의 라우팅 정확도에 머문다. 이는 토큰 간 관계 정보를 충분히 보존하지 못한다는 것을 의미한다. 반면 비학습 인덱스인 Bloom 필터(90.9 %)와 BM25(82.7 %)는 정확히 “정확한 토큰 매칭”이라는 제한된 상황에서 라우팅 병목을 완전히 회피한다. 이 결과는 라우팅 문제를 두 개의 명확한 레짐—‘비학습 인덱스’와 ‘소프트맥스 주의 기반’—으로 구분하고, 중간 영역이 사실상 비어 있음을 보여준다.
결론적으로, 하이브리드 모델이 라우팅을 통해 효율성을 얻으려면 반드시 최소 한 층의 소프트맥스 주의를 포함해야 하며, 이는 모델이 관계 정보를 임베딩에 명시적으로 기록하도록 강제한다. 이러한 관점은 기존의 “주의는 비용이 큰 연산이다”라는 시각을 넘어, “주의는 표현을 구성하는 핵심 메커니즘”이라는 새로운 해석을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기