잠재 도구 호출로 효율적인 체인오브생각 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CoLT는 대형 언어 모델이 토큰 수준의 체인오브생각(Chain‑of‑Thought) 대신 “시드 토큰”을 생성해 외부 작은 디코더에 전달함으로써, 숨겨진 상태를 압축·복원하는 도구 호출 형태의 잠재 추론을 구현한다. 메인 모델은 여전히 명시적 텍스트 공간에서 추론하므로 기존 능력을 유지하면서, 디코더가 압축된 단계들을 빠르게 풀어내어 연산 효율과 추론 길이를 동시에 개선한다. GSM8K‑Aug 등 네 개의 수학 벤치마크에서 정확도와 토큰 수 모두 기존 잠재 추론 방법을 앞섰으며, 강화학습과 다양한 디코더 구조와도 호환된다.

상세 분석

CoLT는 기존 잠재 추론 기법이 모델 구조를 크게 변경하고 대규모 재학습을 필요로 하는 문제점을 해결하고자 설계되었다. 핵심 아이디어는 “시드 토큰”(seed token)이라는 특수 토큰을 메인 LLM이 생성하도록 유도하고, 이 토큰들의 최종 레이어 은닉 상태를 외부 디코더에 입력해 압축된 추론 단계를 복원하는 것이다. 시드 토큰은 와 두 종류로 구성되며, 는 어떤 디코더를 사용할지 지정한다. 디코더는 Transformer 기반이지만 레이어 수가 메인 모델보다 현저히 적어 연산 비용을 크게 절감한다. 은닉 상태 H는 선형 프로젝터 P_D를 거쳐 디코더 입력 Z로 변환되고, 디코더는 autoregressive 방식으로 텍스트 R을 생성한다. 이 과정은 완전 미분 가능하므로, 메인 모델과 디코더를 동시에 최적화할 수 있다. 손실 함수는 메인 모델이 시드 토큰을 올바르게 생성하도록 하는 L_main과 디코더가 복원한 텍스트를 정답과 맞추는 L_lat의 합으로 정의된다.

학습 단계에서는 기존 CoT 데이터에서 각 추론 단계를 하나의 잠재 도구 호출로 변환해 지도학습을 수행한다. 이후 강화학습(GRPO) 단계에서는 디코더가 샘플링을 지원하도록 하여, 다양한 추론 경로를 탐색하고 보상 기반으로 정책을 개선한다. 이는 기존 방법이 골드 CoT에만 의존하던 한계를 넘어, 모델이 스스로 새로운 효율적인 추론 흐름을 발견하도록 만든다.

실험에서는 GSM8K‑Aug, GSM8K‑Hard, SVAMP, MultiArith 네 개의 수학 데이터셋을 사용했으며, 정확도(Acc.)와 추론 길이(#L) 두 지표 모두에서 기존 잠재 모델(Coconut, CODI, COLAR 등)을 능가하였다. 특히 1‑seed와 2‑seed 설정에서 정확도는 45 % 수준, 토큰 수는 7‑10 % 감소를 기록했다. 디코더 구조를 Transformer 외에도 multi‑hot 형태로 교체했을 때도 성능 저하가 미미해, 프레임워크의 확장성을 입증했다.

한계점으로는 시드 토큰의 길이와 디코더 선택 전략이 하이퍼파라미터에 크게 의존한다는 점, 그리고 현재 실험이 주로 수학 문제에 국한돼 있어 다른 도메인(예: 코드 생성, 자연어 이해)에서의 일반화 여부가 미확인된다는 점을 들 수 있다. 또한 디코더가 별도 모델이므로 메모리 사용량이 증가할 수 있지만, 전체 토큰 수 감소 효과가 이를 상쇄한다는 실험 결과가 있다.

전반적으로 CoLT는 “잠재 도구 호출”이라는 새로운 패러다임을 제시함으로써, 대형 언어 모델이 토큰‑레벨 추론의 비효율성을 극복하고, 기존 사전학습된 능력을 유지하면서도 연산 효율을 크게 향상시킬 수 있음을 보여준다.

잠재 도구 호출로 효율적인 체인오브생각 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기