스스로 사고하는 LLM을 위한 ALIVE 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
ALIVE는 하나의 정책 모델이 문제 생성·해결·평가 세 역할을 순환하도록 설계한 자기지도 강화학습 프레임워크이다. 원시 텍스트에서 스스로 마스크를 만들어 과제로 바꾸고, 이를 풀어 추론 과정을 출력한 뒤, 자체적인 언어적 비판과 연속적인 소프트 보상을 생성한다. 이러한 삼위일체(Construction‑Solver‑Reviewer) 학습을 통해 스칼라 보상의 한계를 극복하고, 수학·코드·논리 추론 등 다양한 도메인에서 정확도와 교차‑도메인 일반화, 자체 교정 능력을 향상시킨다.

상세 분석

**
ALIVE는 기존 RLHF·RLAIF 등에서 발생하는 ‘보상 병목’ 문제를 근본적으로 재구성한다. 첫 번째 핵심은 통합 인지 역할(Cognitive Synergy) 개념이다. 하나의 거대 언어 모델 πθ 가 세 가지 역할을 번갈아 수행한다.

Constructor는 원시 문서 d 에서 의미상 핵심 구간을 마스크하고, (masked input, ground‑truth) 쌍을 생성한다. 마스크 선택은 Solver의 성공률을 최소화하도록 설계된 적대적 보상 r_constructor (1 – Acc) 에 의해 강화되며, KL‑정규화와 solvability‑gate I(Acc>0) 로 무의미한 난이도 상승을 억제한다.
Solver는 생성된 질의 x̃ 에 대해 다중 후보 ŷ (추론 트레이스 z + 최종 답 a)을 출력한다. 여기서 하드 보상 r_hard 은 정답과의 정확한 매칭을, 소프트 보상 r_soft 은 Reviewer가 제공하는 연속 점수 v ∈

스스로 사고하는 LLM을 위한 ALIVE 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기