잠재 도구 호출로 효율적인 체인오브생각 구현
초록
CoLT는 대형 언어 모델이 토큰 수준의 체인오브생각(Chain‑of‑Thought) 대신 “시드 토큰”을 생성해 외부 작은 디코더에 전달함으로써, 숨겨진 상태를 압축·복원하는 도구 호출 형태의 잠재 추론을 구현한다. 메인 모델은 여전히 명시적 텍스트 공간에서 추론하므로 기존 능력을 유지하면서, 디코더가 압축된 단계들을 빠르게 풀어내어 연산 효율과 추론 길이를 동시에 개선한다. GSM8K‑Aug 등 네 개의 수학 벤치마크에서 정확도와 토큰 수 모두 기존 잠재 추론 방법을 앞섰으며, 강화학습과 다양한 디코더 구조와도 호환된다.
상세 분석
CoLT는 기존 잠재 추론 기법이 모델 구조를 크게 변경하고 대규모 재학습을 필요로 하는 문제점을 해결하고자 설계되었다. 핵심 아이디어는 “시드 토큰”(seed token)이라는 특수 토큰을 메인 LLM이 생성하도록 유도하고, 이 토큰들의 최종 레이어 은닉 상태를 외부 디코더에 입력해 압축된 추론 단계를 복원하는 것이다. 시드 토큰은
학습 단계에서는 기존 CoT 데이터에서 각 추론 단계를 하나의 잠재 도구 호출로 변환해 지도학습을 수행한다. 이후 강화학습(GRPO) 단계에서는 디코더가 샘플링을 지원하도록 하여, 다양한 추론 경로를 탐색하고 보상 기반으로 정책을 개선한다. 이는 기존 방법이 골드 CoT에만 의존하던 한계를 넘어, 모델이 스스로 새로운 효율적인 추론 흐름을 발견하도록 만든다.
실험에서는 GSM8K‑Aug, GSM8K‑Hard, SVAMP, MultiArith 네 개의 수학 데이터셋을 사용했으며, 정확도(Acc.)와 추론 길이(#L) 두 지표 모두에서 기존 잠재 모델(Coconut, CODI, COLAR 등)을 능가하였다. 특히 1‑seed와 2‑seed 설정에서 정확도는 45 % 수준, 토큰 수는 7‑10 % 감소를 기록했다. 디코더 구조를 Transformer 외에도 multi‑hot 형태로 교체했을 때도 성능 저하가 미미해, 프레임워크의 확장성을 입증했다.
한계점으로는 시드 토큰의 길이와 디코더 선택 전략이 하이퍼파라미터에 크게 의존한다는 점, 그리고 현재 실험이 주로 수학 문제에 국한돼 있어 다른 도메인(예: 코드 생성, 자연어 이해)에서의 일반화 여부가 미확인된다는 점을 들 수 있다. 또한 디코더가 별도 모델이므로 메모리 사용량이 증가할 수 있지만, 전체 토큰 수 감소 효과가 이를 상쇄한다는 실험 결과가 있다.
전반적으로 CoLT는 “잠재 도구 호출”이라는 새로운 패러다임을 제시함으로써, 대형 언어 모델이 토큰‑레벨 추론의 비효율성을 극복하고, 기존 사전학습된 능력을 유지하면서도 연산 효율을 크게 향상시킬 수 있음을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기