압축 사고 단계별 요약으로 효율적이고 가독성 높은 LLM 추론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM이 자체적으로 사고 과정을 단계별로 요약하고, 요약된 내용만을 보존하며 추론을 이어가는 “Accordion‑Thinking” 프레임워크를 제안한다. 요약을 통해 KV 캐시와 어텐션 복잡도를 크게 줄이고, Fold 모드와 Unfold 모드 간 성능 격차가 학습 진행 중 사라지는 현상을 관찰한다. 실험 결과 48 GB GPU 환경에서 3배의 처리량 향상을 달성하면서도 정확도는 유지한다.

상세 분석

Accordion‑Thinking은 기존의 긴 Chain‑of‑Thought(CoT) 방식이 갖는 메모리·연산 비용 문제를 근본적으로 해결하고자 한다. 핵심 아이디어는 모델이 스스로 “단계 요약(step summary)”을 생성하고, 이후 토큰 생성 시 상세 단계(detail) 텍스트를 KV 캐시에서 삭제한 뒤 요약만을 컨텍스트에 남기는 것이다. 이를 Fold 모드라 부르며, Unfold 모드(전통적인 전체 컨텍스트 유지)와 대비된다.

기술적으로는 각 추론 단계 k를 (d_k, s_k) 쌍으로 정의한다. d_k는 자유형 사고 텍스트, s_k는 그에 대한 압축 요약이다. Fold 모드에서는 H_fold^k =

압축 사고 단계별 요약으로 효율적이고 가독성 높은 LLM 추론

초록

상세 분석

댓글 및 학술 토론

의견 남기기