자율 진화 추론 최적화 AERO

자율 진화 추론 최적화 AERO
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
AERO는 자체 질문·답변·비판을 하나의 LLM 안에서 순환시키는 이중 루프 구조를 도입해 외부 데이터와 검증자를 전혀 사용하지 않고도 추론 능력을 점진적으로 향상시킨다. 정규화된 샤논 엔트로피를 이용해 ‘근접 발달 영역(ZPD)’을 자동으로 탐색하고, 독립적 반사실 교정(ICC)으로 내부 피드백의 오류를 차단한다. 또한 역할 간 학습 속도 차이를 보정하는 단계적 학습 전략을 적용해 커리큘럼 붕괴를 방지한다. 9개 벤치마크에서 Qwen3‑4B와 Qwen3‑8B 모델에 각각 평균 4.57%, 5.10%의 성능 향상을 달성하였다.

**

상세 분석

**
AERO는 기존 자기 진화(Self‑Evolution) 접근법이 안고 있던 두 가지 근본적 한계를 체계적으로 해결한다. 첫째, 작업 난이도를 자동으로 조절하지 못해 학습이 ‘마스터리 영역’이나 ‘혼돈 영역’에 머무르는 문제를 엔트로피 기반 ZPD 포지셔닝으로 극복한다. 구체적으로, 생성기(Generator)가 다양한 난이도의 질문을 만들고, 해결기(Solver)가 다중 경로 추론을 수행한다. 각 질문에 대해 답변 클러스터의 정규화 샤논 엔트로피 (\bar H)를 계산해 0~1 사이로 정규화하고, 사전에 정의된 저·고 임계값 (\tau_{low}, \tau_{high})와 비교한다. (\tau_{low} \le \bar H \le \tau_{high}) 구간을 ‘근접 발달 영역’으로 정의함으로써, 모델이 현재 능력에 딱 맞는 난이도의 과제만을 학습에 활용한다. 이는 학습 효율을 극대화하고, 과도한 난이도로 인한 노이즈 학습을 방지한다.

둘째, 내부 피드백의 신뢰성을 확보하기 위해 독립적 반사실 교정(Independent Counterfactual Correction, ICC)을 도입한다. 솔버가 생성한 가장 빈번한 두 답변 클러스터 (c_{i,1}, c_{i,2})를 선택하고, 정제기(Refiner)가 “이전 답변이 틀렸다고 가정”하고 재추론하도록 강제한다. 두 독립 경로 (\tilde y_{i,1}, \tilde y_{i,2})의 최종 결과가 일치하면 이를 ‘진실 프록시’로 채택한다. 일치하지 않을 경우 해당 과제는 학습 데이터에서 제외한다. 이 메커니즘은 다수결이나 디코딩 확신과 같은 전통적 내부 검증이 갖는 ‘확신=정답’ 오류를 근본적으로 차단한다.

또한 AERO는 역할 간 학습 비동기성을 해결하기 위해 ‘단계적 학습 전략(Staggered Training Strategy)’을 적용한다. 기존 동기식 자기 플레이에서는 새로운 질문이 이전 라운드 모델의 능력에 맞춰 생성돼, 업데이트된 모델이 이미 마스터리 영역에 도달해 학습 신호가 사라지는 ‘커리큘럼 붕괴’가 발생한다. 단계적 전략은 현재 라운드의 질문 데이터와 이전 라운드의 해결·정제 데이터를 결합해 (\mathcal D^{total}t = {D^g_t, D^{s}{t-1}, D^{r}_{t-1}}) 형태로 학습한다. 이렇게 하면 질문 생성 능력이 최신 모델에 맞춰 지속적으로 도전적인 과제를 제공하면서, 해결·정제 능력은 충분히 숙련된 이전 데이터를 활용해 안정적인 성장 곡선을 유지한다.

실험에서는 일반 추론, 수학 추론, 물리 추론 등 3개 도메인에 걸친 9개 벤치마크를 사용했으며, Qwen3‑4B‑Base와 Qwen3‑8B‑Base 모델에 각각 평균 4.57%와 5.10%의 정확도 향상을 기록했다. 특히, 단계적 학습 없이 동기식 학습을 적용했을 때는 성능 정체 혹은 감소 현상이 관찰됐으며, 이는 제안된 ZPD 포지셔닝과 ICC가 학습 안정성에 미치는 영향을 실증적으로 보여준다. 코드와 데이터는 공개 저장소에 제공돼 재현 가능성을 확보하였다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기