아이디어 게이트 트랜스포머로 의미 일관성 강화

초록

본 논문은 자동 회귀 언어 모델이 초기에 제시된 주제에서 벗어나는 ‘주제 드리프트’를 완화하기 위해, 의미적 계획 단계와 문법적 생성 단계를 분리하는 아이디어 게이트 트랜스포머(Idea‑Gated Transformer)를 제안한다. 보조 아이디어 헤드가 미래 컨텍스트의 bag‑of‑words 분포를 예측해 잠재적 “Concept Vector”를 생성하고, 이를 기반으로 메인 어휘를 실시간으로 차단·선택하는 차별가능한 게이팅 메커니즘을 도입한다. WikiText‑103 실험에서 기존 GPT‑2와 비슷한 검증 퍼플렉시티를 유지하면서 도메인 유지율과 의미적 일관성이 크게 향상됨을 보인다.

상세 요약

Idea‑Gated Transformer는 기존 GPT‑계열 모델이 갖는 ‘지역 연관성 중심’의 한계를 구조적으로 보완한다는 점에서 혁신적이다. 핵심은 두 개의 병렬 헤드—아이디어 헤드와 토큰 헤드—가 서로 다른 목표를 학습한다는 설계다. 아이디어 헤드는 현재 컨텍스트를 입력받아 미래 일정 길이(예: 10~20 토큰)의 bag‑of‑words 확률 분포를 예측한다. 이 예측은 단순히 다음 토큰을 맞추는 것이 아니라, 향후 텍스트가 포함해야 할 핵심 어휘군을 미리 정의한다는 의미다. 예측된 분포는 고차원 ‘Concept Vector’로 압축되며, 이는 메인 토큰 헤드의 어휘 로짓에 element‑wise gating을 적용하는 데 사용된다. 차별가능한 게이팅은 sigmoid‑scaled gating 값과 원래 로짓을 곱해, 의미적으로 관련성이 낮은 토큰의 확률을 실시간으로 억제한다. 이 과정은 역전파가 가능하도록 설계돼, 아이디어 헤드와 토큰 헤드가 공동 최적화된다.

학습 단계에서는 두 손실을 가중합한다. 첫 번째는 전통적인 NTP 손실(크로스 엔트로피)이며, 두 번째는 아이디어 헤드가 예측한 bag‑of‑words와 실제 미래 토큰 집합 사이의 KL‑divergence 손실이다. 이때 KL 손실은 미래 어휘 분포를 정확히 잡아내는 것이 아니라, 의미적 클러스터링을 촉진하도록 설계돼, 즉 ‘Finance’, ‘Science’ 등 큰 의미 영역을 구분하도록 유도한다. 결과적으로 모델은 ‘전역적 의미 플래닝’ 능력을 내재화하면서도, 기존 토큰‑레벨 예측 능력은 유지한다.

실험에서는 GPT‑2(124M)와 동일한 파라미터 수·학습 설정을 사용했으며, WikiText‑103 검증 퍼플렉시티는 18.9 vs 19.1로 거의 차이가 없었다. 그러나 ‘Domain Retention’ 지표(초기 프롬프트와 200 토큰 이후의 어휘 클러스터 일치율)는 78%에서 92%로 크게 상승했다. 정성적 분석에서는 금융 기사 프롬프트에 대해 모델이 ‘주식’, ‘시장’, ‘투자’ 등 핵심 용어를 지속적으로 사용하며, 불필요한 일상 대화형 토큰으로 전이되지 않음을 확인했다. 또한, 게이팅 메커니즘의 시각화는 특정 의미 클러스터에 속하는 토큰들의 게이팅 값이 지속적으로 높게 유지되는 것을 보여, 실시간 의미 제어가 가능함을 증명한다.

이 접근법은 파라미터 효율성 측면에서도 장점이 있다. 아이디어 헤드는 상대적으로 작은 feed‑forward 네트워크와 몇 개의 선형 변환만을 사용해, 전체 모델 파라미터 증가가 5% 이하에 불과하다. 따라서 대규모 모델에 비해 비용이 크게 늘어나지 않으며, 기존 파인튜닝 파이프라인에 쉽게 통합될 수 있다. 한계점으로는 미래 컨텍스트 길이와 bag‑of‑words 크기 설정이 도메인에 따라 민감하게 작용할 수 있다는 점, 그리고 매우 긴 텍스트(수천 토큰)에서는 게이팅 효과가 점차 약해질 가능성이 있다는 점을 들 수 있다. 향후 연구에서는 멀티‑스케일 아이디어 헤드와 동적 컨텍스트 길이 조절 메커니즘을 도입해 이러한 문제를 보완하고, 다른 생성형 모델(예: T5, BART)에도 적용 가능성을 탐색할 예정이다.

초록

상세 요약

📜 논문 원문 (영문)