멀티질문 압력으로 스스로 압축하는 추론, ConPress

멀티질문 압력으로 스스로 압축하는 추론, ConPress
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 추론 모델이 하나의 프롬프트에 여러 독립적인 질문을 동시에 제시받을 때, 각 질문에 대한 체인‑오브‑생각(Chain‑of‑Thought) 길이가 자연스럽게 짧아지는 “Self‑Compression” 현상을 발견한다. 이를 “Contextual Pressure”라 부르고, 다중질문 프롬프트를 이용해 모델 자체가 생성한 압축된 추론 과정을 수집·필터링한 뒤, 단일질문 상황에 대해 지도학습(SFT)으로 재학습시킨 ConPress 방법을 제안한다. 8k 정도의 자체 생성 데이터만으로도 MATH500에서 토큰 사용량을 59 %, AIME25에서 33 % 절감하면서 정확도 저하를 최소화한다.

상세 분석

ConPress 논문은 크게 두 가지 과학적·공학적 기여를 제시한다. 첫 번째는 “Self‑Compression”이라는 현상의 체계적 발견이다. 저자들은 동일한 질문을 단일 프롬프트와 다중 질문 프롬프트(N≥2)로 각각 제시했을 때, 모델이 생성하는 CoT 길이가 현저히 감소한다는 것을 실험적으로 입증한다. 이 현상은 질문 수가 늘어날수록 압축 비율(ρ)이 40 %~70 % 수준까지 상승하고, 토큰 길이 분포가 전체적으로 좌측으로 이동하는 형태로 관찰된다. 특히, 질문 자체의 난이도를 바꾸거나, 질문 대신 선언문·빈 자리표시자를 삽입하는 등 “질문 추가”가 아닌 다른 프롬프트 변형을 적용했을 때는 압축 효과가 미미함을 보여, 압축이 구조적(질문 수) 요인에 의해 주도된다는 점을 강조한다.

두 번째 기여는 이 현상을 활용한 학습 프레임워크, ConPress이다. ConPress는 (1) 다중 질문 프롬프트를 무작위로 샘플링해 모델이 스스로 생성한 압축된 추론(trace)와 정답을 수집하고, (2) 정답이 맞는 경우에만 해당 trace를 보존하는 “rejection sampling”을 수행한다. 이렇게 얻어진 (질문, 압축된 추론, 정답) 삼중항 집합 D_CP는 외부 교사 모델이나 인간 주석 없이 완전 자기 지도(self‑supervised) 데이터가 된다. 이후 D_CP를 이용해 단일 질문 상황에 대해 토큰‑레벨 로그우도 손실을 최소화하는 전통적인 SFT( supervised fine‑tuning) 과정을 적용한다. 결과적으로 모델은 다중 질문 상황에서 학습된 “짧고 핵심적인” 추론 패턴을 단일 질문 상황에서도 재현하게 된다.

실험에서는 DeepSeek‑R1‑Distill‑Qwen‑7B와 Qwen3‑4B‑Thinking 두 모델을 대상으로 MATH500, AIME25, GSM8K, AMC 등 다양한 수학·올림피아드 벤치마크에서 평가했다. 토큰 사용량 감소율은 모델·데이터셋에 따라 30 %~60 %에 이르며, 정확도는 대부분 0 %~2 % 수준으로 미미하게 변동한다. 특히 Qwen3‑4B‑Thinking은 토큰 절감량이 48 %에 달하면서도 정확도 손실이 –0.6 %에 그쳐, 기존 RL‑기반 토큰 페널티나 교사 기반 압축 방법보다 효율적임을 입증한다. 또한, “RFT shortest”, “DPO shortest” 등 기존 압축 기법과 비교했을 때, ConPress는 별도의 보상 설계나 복잡한 파이프라인 없이도 비슷하거나 더 나은 효율‑정확도 트레이드오프를 제공한다.

이 논문은 (1) 모델 내부의 생성 역학이 프롬프트 구조에 민감하게 변한다는 새로운 인사이트를 제공하고, (2) 그러한 자연 현상을 활용해 비용 효율적인 추론 압축을 달성하는 실용적인 방법론을 제시한다는 점에서 의미가 크다. 다만, 다중 질문 수가 증가할수록 정확도가 서서히 감소하는 경향이 있으며, 매우 높은 정확도가 요구되는 미션에서는 압축 정도를 조절할 필요가 있다. 향후 연구에서는 “Contextual Pressure”를 정량화하는 메트릭 개발, 질문 간 상관관계가 압축에 미치는 영향 분석, 그리고 비수학 분야(코드, 논리 추론 등)로의 일반화가 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기