테스트 시점 재귀 사고: 외부 피드백 없이 자체 향상

테스트 시점 재귀 사고: 외부 피드백 없이 자체 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델이 추가 학습 없이 테스트 단계에서 자체적으로 성능을 향상시킬 수 있는 프레임워크인 테스트 시점 재귀 사고(Test-time Recursive Thinking, TRT)를 제안한다. TRT는 (1) 누적된 지식과 롤아웃‑특정 전략을 조건으로 다수의 후보 해답을 생성하고, (2) 자체 판단을 통해 최적 후보를 선택하며, (3) 선택되지 않은 후보와 최적 후보를 비교해 실패 원인을 추출·축적한다. 이를 반복함으로써 수학 문제(AIME)에서는 100% 정확도를, 코드 생성(LiveCodeBench)에서는 10‑15%p의 정확도 향상을 달성한다.

상세 분석

TRT는 기존의 메타‑RL이나 단일‑패스 자기 개선 방법과 달리, “전략적 탐색”과 “자기 검증”을 순환적으로 결합한다는 점에서 혁신적이다. 첫 단계인 Generate에서는 현재까지 축적된 Knowledge 리스트와 모델이 스스로 설계한 전략 sₖ를 입력으로 하여 K개의 롤아웃 rₖ를 만든다. 여기서 Knowledge는 부정형(‘don’t’) 형태의 실패 패턴, 버그 유형, 논리적 함정 등을 포함하며, 컨텍스트 윈도우 제한을 고려해 오래된 항목을 주기적으로 삭제한다. 전략 설계는 모델이 Knowledge를 분석해 “이미 시도했지만 실패한 접근법을 피하고, 새로운 탐색 방향을 제시”하도록 프롬프트를 생성함으로써, 무작위 변이 대신 의미 있는 다양성을 확보한다.

두 번째 단계인 Select에서는 외부 정답 없이 자체 판단(self‑judgement)으로 최적 후보 r*를 선정한다. 수학 문제에서는 정답이 유일한 정수라는 ‘상호 배타성’ 속성을 활용해, 이전에 거부된 답안을 Knowledge에 기록하고, 새로운 답안이 기존과 충돌하지 않는지를 검증한다. 코드 문제에서는 모델이 자체적으로 테스트 케이스를 생성하고, 각 후보를 실행해 통과율을 점수화한다. 이 과정은 완전한 정답 보장을 제공하지 않지만, 실용적인 신호로 충분히 강력함을 실험에서 확인했다.

세 번째 단계인 Reflect에서는 비최적 롤아웃을 r*와 비교해 구체적인 실패 원인을 추출한다. 예를 들어 “인덱스 오프‑바이‑원 오류”, “경계 조건 누락” 등을 텍스트 형태로 Knowledge에 추가한다. 이렇게 축적된 Knowledge는 다음 라운드의 Generate 단계에서 조건으로 사용돼, 동일한 실수를 반복하지 않게 만든다.

실험 결과는 두 가지 도메인에서 눈에 띈다. 수학 영역(AIME‑2025/2024)에서는 오픈소스 모델(gpt‑oss‑120b, Qwen3‑235B) 모두 64라운드(총 64개 롤아웃) 후 100% 정확도를 달성했으며, 이는 기존 Parallel Thinking(다수 투표)이나 RSA와 비교해 동일 비용 대비 2‑7%p의 pass@k 향상을 보였다. 코드 영역(LiveCodeBench‑v6 hard)에서는 상용 모델(o4‑mini‑high, o3‑high)도 8라운드(라운드당 2개 롤아웃) 후 각각 +10.4%p, +14.8%p의 정확도 상승을 기록했다. 특히, 자체 생성 테스트가 선택 정확도에 7.4%p 기여한다는 ablation 결과는 자기 검증 메커니즘의 중요성을 강조한다.

TRT는 “탐색 없이 검증만 하면 잡음이, 검증 없이 탐색만 하면 정체”라는 두 핵심 과제를 동시에 해결한다. 전략적 탐색은 Knowledge‑driven 프롬프트 설계로 다양성을 확보하고, 자기 검증은 도메인‑특화 신호(수학의 상호 배타성, 코드의 실행 테스트)로 후보를 필터링한다. 이 구조는 추가 파라미터 업데이트 없이도 모델이 자체적인 메타‑학습을 수행하도록 만든다. 한계로는 Knowledge 리스트 관리 비용, 테스트 케이스 생성의 불완전성, 그리고 대규모 모델에 비해 작은 모델에서의 스케일 효율성 등이 있다. 향후 연구는 자동화된 Knowledge 압축, 외부 검증자와의 하이브리드 선택, 그리고 다양한 도메인(예: 과학 논문 요약, 법률 문서 해석)으로의 일반화를 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기