SemCoT: 의미 정렬 암묵 토큰으로 체인‑오브‑생각 가속화

SemCoT: 의미 정렬 암묵 토큰으로 체인‑오브‑생각 가속화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SemCoT는 기존 암묵 CoT가 겪는 의미 정렬 손실과 토큰 생성 속도 문제를 해결한다. 맞춤형 문장 변환기를 대조 학습으로 훈련해 암묵 추론 임베딩과 명시적 추론 텍스트 사이의 의미 유사도를 측정·최적화하고, 경량화된 언어 모델을 지식 증류 방식으로 미세조정해 암묵 토큰을 빠르게 생성한다. 실험 결과, SemCoT는 정확도는 유지하면서 추론 시간과 토큰 수 모두 크게 감소시킨다.

상세 분석

본 논문은 체인‑오브‑생각(Chain‑of‑Thought, CoT) 방식이 LLM의 추론 시간을 크게 늘리는 문제를 지적하고, 최근 등장한 ‘암묵 CoT(implicit CoT)’ 접근법이 토큰 수를 줄여 효율성을 높이려 하지만 두 가지 근본적인 한계가 있음을 밝힌다. 첫 번째는 암묵 토큰을 자연어로 변환했을 때 원본 CoT와 의미 정렬이 깨져 성능 저하가 발생한다는 점이다. 이는 암묵 토큰이 고차원 숨겨진 임베딩 형태이므로, 기존 방법이 단순히 키워드 매칭이나 정답 중심 최적화에 머물러 의미 정보를 충분히 보존하지 못하기 때문이다. 두 번째는 암묵 토큰 자체를 생성하는 데에도 여전히 거대한 LLM을 사용하면 토큰당 0.1 초 수준의 비용이 발생해 전체 추론 속도 향상이 제한된다는 점이다.

SemCoT는 이 두 문제를 동시에 해결하기 위해 두 단계의 프레임워크를 제시한다.

  1. 의미 정렬 평가: 저자는 LLM의 중간 5개 레이어를 백본으로 하는 맞춤형 문장 변환기(C_ϕ)를 설계한다. 이 변환기는 입력 토큰을 LLM 임베딩으로 매핑한 뒤, 풀링과 선형 투영을 거쳐 저차원 의미 임베딩을 만든다. 대조 학습을 위해 ‘원본 추론 텍스트(R)’와 GPT‑4o‑mini가 생성한 압축된 의미 동등 텍스트(S)를 쌍으로 사용한다. 손실 함수는 소프트맥스 기반 코사인 유사도 대비 온도 파라미터 τ를 적용한 대조 손실(L_sim)이며, 이는 같은 의미 쌍을 가깝게, 다른 쌍을 멀게 배치하도록 학습한다. 이렇게 훈련된 변환기는 암묵 토큰 Z와 명시적 추론 R 사이의 의미 유사도를 정량화해, 최적화 과정에서 의미 정렬을 직접 목표에 포함시킬 수 있게 한다.

  2. 고속 암묵 토큰 생성: 의미 정렬을 보장하면서도 토큰당 생성 시간을 단축하기 위해, 원본 LLM(Llama‑2‑7b‑chat 등)에서 프루닝·증류된 경량 모델(I_ψ, 예: Sheared‑LLaMA‑1.3B)을 사용한다. 경량 모델의 출력 임베딩은 선형 변환 레이어를 통해 원본 LLM의 임베딩 공간에 맞추어져, LLM이 그대로 활용할 수 있는 ‘암묵 CoT 토큰’이 된다. 학습 목표는 두 가지이다. (a) 변환된 임베딩이 맞춤형 문장 변환기에서 높은 의미 유사도(sim(C_ϕ(T_F(R)), C_ϕ(I_ψ(Q))))를 보이도록 하는 의미 정렬 손실, (b) 최종 답변 Y를 생성할 때 정답 확률 P_F(y_i|…)이 최대가 되도록 하는 정답 손실을 결합한 다중 목표 손실이다. 이렇게 하면 경량 모델이 빠르게 암묵 토큰을 생성하면서도, 의미적으로는 원본 CoT와 거의 동일한 정보를 전달한다.

실험에서는 여러 베이스 LLM과 수학·논리·상식 추론 벤치마크에 대해 SemCoT와 기존 암묵 CoT(예: Implicit‑CoT, Distill‑CoT 등)를 비교한다. 평가 지표는 (1) 정확도(정답 비율), (2) 평균 추론 시간, (3) 생성된 토큰 수이다. 결과는 SemCoT가 기존 방법 대비 평균 30 %~45 %의 시간 절감과 20 %~35 %의 토큰 감소를 달성하면서, 정확도는 0.5 %~2 % 수준으로 거의 유지함을 보여준다. 특히 대형 모델(>70B 파라미터)에서 토큰당 비용이 크게 늘어나는 상황에서도 경량 모델을 활용한 토큰 생성 속도가 크게 개선되어, 실시간 서비스 적용 가능성을 높인다.

핵심 기여는 (i) 의미 정렬을 정량화·최적화하는 맞춤형 문장 변환기 설계, (ii) 경량 모델과 선형 정렬 레이어를 이용한 고속 암묵 토큰 생성, (iii) 두 목표를 동시에 만족시키는 다중 목표 학습 프레임워크이다. 이 접근법은 “암묵 토큰”이라는 새로운 추론 표현을 효율적으로 활용하면서도, 기존 CoT가 제공하는 해석 가능성과 성능을 포기하지 않는 점에서 의미가 크다. 앞으로는 다양한 LLM 아키텍처와 멀티모달 추론에 확장할 여지가 있으며, 토큰‑레벨 효율성을 넘어 전체 파이프라인 최적화와 비용 절감에 기여할 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기