초기 토큰 활용 훈련‑없는 대형 언어 모델 성능 향상
초록
ZeroTuning은 LLM의 첫 번째 토큰(
상세 분석
ZeroTuning은 기존 토큰‑레벨 주의 조정 기법(PASTA, ACT)과 달리, “중요 토큰”을 외부 히어스틱으로 탐색할 필요 없이 모델 구조상 언제나 존재하는 초기 토큰(
실험적으로는 γ를 0.5~2.0 범위에서 변동시키며 SST‑2, BoolQ, LogiQA 등 세 가지 대표 작업에 적용했을 때, 초기 토큰 조정이 다른 위치(두 번째, 중간, 마지막 토큰)보다 일관적으로 큰 정확도 향상을 보였다. 작업별 최적 γ 방향이 다르다는 점도 흥미한데, 감성 분석(SST‑2)에서는 γ>1(초기 토큰 강조)로 전역적인 컨텍스트 통합을 촉진하고, 사실 검증(Boolean QA)이나 논리 추론(LogiQA)에서는 γ<1(초기 토큰 억제)으로 중요한 증거 토큰에 대한 집중도를 높였다.
또한, 주의 분포가 평탄해지면 출력 엔트로피가 감소한다는 관찰을 통해, γ가 엔트로피 최소화와 정확도 최대화 사이에 강한 역상관관계가 있음을 확인했다. 이는 초기 토큰 스케일링이 사전 학습된 지식을 보다 확실히 끌어내는 메커니즘으로 작용한다는 해석을 가능하게 한다.
층별 분석에서는 32층을 얕은(1‑10), 중간(11‑21), 깊은(22‑31) 세 구간으로 나누어 각각 γ를 적용했을 때, 얕은·중간 층에서의 향상이 깊은 층보다 크게 나타났다. 이는 초기 층이 표현 학습과 지식 통합을 담당하고, 깊은 층은 최종 추론에 집중한다는 기존 연구와 일치한다.
헤드별 실험에서는 각 헤드에 γ=1.5(상향) 혹은 0.6(하향) 스케일링을 독립적으로 적용했을 때, “up‑effective”와 “down‑effective” 헤드가 혼재함을 발견했다. 예를 들어 SST‑2에서는 up‑effective 헤드 비중이 높아 상향 스케일링이 유리했으며, MMLU에서는 반대로 하향 스케일링이 더 좋은 결과를 냈다. 이는 헤드가 사전 학습 단계에서 전역 검색, 구조 파싱, 부정 감지 등 서로 다른 기능을 담당하게 된다는 기존 보고와 연결된다.
ZeroTuning은 이러한 분석을 바탕으로 두 가지 모드를 제시한다. 감독 모드에서는 검증 셋의 정확도를 직접 최적화하도록 γ를 학습(실제로는 4줄 코드로 구현)하고, 비감독 모드에서는 출력 엔트로피를 최소화하는 γ를 찾는다. 구현 측면에서 KV‑cache를 수정하거나 디코딩 로직을 바꾸지 않아도 되며, SDPA와 FlashAttention 모두와 호환된다. 코드베이스에 단 4줄 정도의 수정만으로 LlamaAttention에 γ를 곱하고 정규화하는 로직을 삽입하면 된다.
실험 결과는 15개 벤치마크(분류, QA, 대화, 수학 등)에서 일관적인 성능 향상을 보여준다. 특히 Llama‑3.1‑8B‑Instruct에 대해 분류 정확도는 19.9 % 상승, Open‑Domain QA는 4.5 % 상승, 대화 응답 품질은 2.1 % 상승을 기록했으며, MT‑Bench 점수도 7.804→7.966으로 개선되었다. 양자화(4‑bit, 8‑bit) 환경과 4K‑8K 토큰 길이에서도 효과가 유지돼, 실제 서비스 환경에 바로 적용 가능함을 증명한다.
요약하면, ZeroTuning은 “초기 토큰이라는 보편적 레버”를 활용해 훈련 없이도 LLM의 주의 메커니즘을 정밀하게 재조정함으로써, 기존 복잡한 토큰‑레벨 조정 기법을 능가하는 간단하고 확장 가능한 성능 향상 도구를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기