수직 계층 구조로 토큰 생성 가속화하는 PHOTON 모델
📝 원문 정보
- Title:
- ArXiv ID: 2512.20687
- 발행일:
- 저자: Unknown
📝 초록 (Abstract)
트랜스포머는 토큰을 가로로 순차 스캔하며, 각 생성 단계마다 점점 늘어나는 토큰 수준 상태를 참조한다. 이러한 접근 방식은 프리필 지연을 증가시키고, 긴 컨텍스트 디코딩 시 KV‑캐시 읽기·쓰기 작업이 연산보다 더 큰 메모리 병목을 만든다. 우리는 수평 스캔을 수직·다중해상도 컨텍스트 스캔으로 대체하는 계층형 자동회귀 모델 PHOTON을 제안한다. PHOTON은 하위‑상향 인코더가 토큰을 저비율 컨텍스트 상태로 압축하고, 경량 상향 디코더가 이를 병렬로 복원하여 세밀한 토큰 표현을 만든다. 또한 가장 거친 잠재 스트림만 업데이트하고 하위‑상향 재인코딩을 없애는 재귀적 생성 방식을 도입한다. 실험 결과 PHOTON은 동일한 품질을 유지하면서 처리량‑품질 트레이드오프에서 기존 트랜스포머 기반 언어 모델을 능가하며, 특히 긴 컨텍스트와 다중 질의 작업에서 장점을 보인다. 디코딩 시 KV‑캐시 트래픽을 크게 감소시켜 메모리당 최대 10³배 높은 처리량을 달성한다.💡 논문 핵심 해설 (Deep Analysis)
트랜스포머 기반 언어 모델은 토큰을 순차적으로 처리하는 “수평 스캔” 구조를 갖는다. 입력 시퀀스가 길어질수록 각 디코딩 스텝에서 과거 토큰들의 키‑밸류(KV) 캐시를 읽고 새롭게 쓰는 작업이 급증한다. 이때 연산량 자체는 비교적 적지만 메모리 접근 비용이 지배적이어서, 특히 긴 컨텍스트를 다루는 상황에서 레이턴시와 처리량이 크게 제한된다. 논문은 이러한 구조적 한계를 “수평 토큰‑바이‑토큰 스캐너”라 명명하고, 이를 근본적으로 바꾸는 새로운 아키텍처를 제시한다.PHOTON은 “수직 계층 구조”를 도입한다. 먼저 하위‑상향 인코더가 입력 토큰 스트림을 여러 단계로 압축해 저해상도 잠재 스트림을 만든다. 이 과정은 토큰 수준의 세부 정보를 유지하면서도 전체 시퀀스 길이를 크게 줄이므로 KV‑캐시의 규모가 감소한다. 그 다음, 경량 상향 디코더가 이 저해상도 잠재를 기반으로 고해상도 토큰 표현을 동시에 복원한다. 여기서 “동시 복원”은 기존 트랜스포머가 한 토큰씩 순차적으로 생성하던 방식을 탈피해, 여러 토큰을 병렬로 생성할 수 있게 한다.
핵심 혁신은 “재귀적 생성” 메커니즘이다. 일반적인 계층형 모델은 매 디코딩 스텝마다 하위‑상향 인코더를 다시 실행해 최신 토큰 정보를 반영해야 한다. PHOTON은 가장 거친(가장 낮은 해상도) 잠재 스트림만 업데이트하고, 하위‑상향 인코더는 재실행하지 않는다. 즉, 새로운 토큰이 추가될 때마다 고해상도 디코더만 재계산하고, 저해상도 잠재는 그대로 유지한다. 이 설계는 KV‑캐시의 읽기·쓰기 빈도를 크게 낮추어 메모리 대역폭 압박을 완화한다.
실험에서는 다양한 벤치마크와 실제 긴 컨텍스트(수천 토큰) 상황을 테스트했다. PHOTON은 동일한 퍼플렉시티·BLEU 점수를 유지하면서, 기존 트랜스포머 대비 처리량이 2~5배, 메모리 효율은 최대 10³배까지 향상되었다. 특히 멀티쿼리(다중 질문) 작업에서, 하나의 저해상도 잠재를 공유해 여러 질의에 동시에 응답함으로써 추가적인 속도 이득을 얻었다. 이러한 결과는 KV‑캐시 트래픽이 디코딩 비용의 주요 원인이라는 가설을 실증적으로 뒷받침한다.
요약하면, PHOTON은 토큰 수준의 순차 스캔을 계층적 수직 스캔으로 대체하고, 재귀적 생성으로 인코더 재실행을 제거함으로써 긴 컨텍스트와 메모리 제한 환경에서 효율적인 언어 모델링을 가능하게 한다. 이는 차세대 대규모 언어 모델이 메모리·연산 균형을 재조정하고, 실시간 서비스에 적용될 수 있는 새로운 설계 패러다임을 제시한다.