폴라리스: 소형 언어 모델을 위한 경험 추상화 기반 정책 복구 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

폴라리스는 7B 규모 모델에 적용 가능한 재귀적 자기 개선 시스템으로, 실패 사례를 경험 추상화하여 간결한 코드 패치를 생성·검증하고 정책에 반영한다. MGSM·DROP·GPQA·LitBench에서 기본 모델 대비 일관된 성능 향상을 보이며, 수정 내용이 추적 가능하고 재사용 가능하도록 설계되었다.

상세 분석

폴라리스는 기존 고도화된 Gödel Agent(요인: 대규모 모델, 대용량 컨텍스트)와 달리, 소형 언어 모델(7B)에서도 메모리와 연산 비용을 제한하면서 재귀적 자기 개선을 구현한다. 핵심 아이디어는 ‘경험 추상화(Experience Abstraction)’이다. 에이전트는 검증 셋에서 실패한 N개의 샘플을 수집하고, 각 샘플에 대해 AnalyzeFailure 프롬프트를 호출해 (diagnosis, revision, prevention) 형태의 구조화된 반성 기록 A_i를 만든다. 이 기록들을 StrategySynthesis 단계에서 집합 A={A_i}를 압축해 재사용 가능한 전략 δ_j(예: 문제 분해, 정규화, 제어 흐름 수정)로 추출한다. 전략당 최소 코드 패치 p_j를 PatchGeneration이 생성하고, IntegratePatch가 구문·실행 검증 후 정책 π_t에 병합한다. 실패 시 최대 3번 재시도하고, 영구 실패는 메모리에 보관해 향후 분석에 활용한다.

폴라리스는 정책 자체를 실행 가능한 파이썬 함수 형태로 유지하고, 런타임 코드 변형을 허용한다. 이는 기존 Gödel Agent가 대규모 모델에 의존해 복잡한 트레이스와 대량의 검증 샘플을 메모리에 보관하던 문제를 해결한다. 메모리 성장 억제를 위해 폴라리스는 (1) 검증 샘플 수 N을 3~5로 제한, (2) 이전 단계의 툴 호출 로그를 축소, (3) 패치 적용 전 경량 검증기만 사용한다.

실험에서는 Qwen‑2.5‑7B‑INSTRUCT를 두 대의 V100(32 GB)에서 10시간 자동 실행시켰다. MGSM(수학 문제), DROP(읽기 추론), GPQA(대학 수준 과학·기술 질문), LitBench(창의적 글쓰기) 네 벤치마크에서 각각 평균 2~5%p(또는 F1) 향상을 기록했으며, 특히 정책 레벨 수정이 반복 사용돼 동일 오류가 재발하지 않는 것을 확인했다. 정책 패치 예시(그린/레드 표시)는 MGSM에서 정수 변환 및 단계 검증 로직을 추가한 것으로, 기존 ‘한 번에 답을 출력’ 방식에서 단계별 검증을 삽입해 정확도를 높였다.

기여는 크게 세 가지다. 첫째, 소형 모델에서도 재귀적 정책 복구가 가능하도록 경험 추상화와 최소 패치 설계를 제시했다. 둘째, Gödel Agent의 메모리·컨텍스트 병목을 분석하고, 이를 해결한 실용적인 구현 방안을 제공했다. 셋째, 다양한 도메인에 걸친 실증 실험을 통해 정책 수준 개선이 지속 가능하고 해석 가능함을 입증했다. 한계로는 (a) 현재는 정적 검증 셋에만 적용돼 열린형 학습(open‑ended learning)에는 미흡하고, (b) 전략 합성 프롬프트가 아직 수동 설계 단계라 자동화 여지가 있다. 향후 연구는 전략 라이브러리 축적, 멀티‑모달 툴 연계, 그리고 장기적인 자기 진화 메커니즘을 탐색할 수 있다.

폴라리스: 소형 언어 모델을 위한 경험 추상화 기반 정책 복구 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기