다양하고 학습 가능하며 검증 가능한 문제의 열린 진화
초록
본 논문은 정적 데이터셋에 의존하는 기존 수학·코딩 추론 모델의 한계를 극복하고자, 모델 학습 과정과 동시에 합성 수학 문제를 진화시키는 프레임워크 DÉJÀQ를 제안한다. LLM이 직접 데이터 변이를 수행하는 두 가지 변이 전략을 도입해 문제의 난이도와 학습 가능성을 동적으로 최적화하고, 이를 통해 강화학습 기반 모델의 성능 향상을 입증한다.
상세 분석
DÉJÀQ는 “문제-모델 공동 진화”라는 새로운 패러다임을 구현한다. 기존 연구는 대규모 정적 데이터셋을 사전 구축한 뒤 모델을 학습시키는 방식을 취했으며, 이는 모델이 데이터에 과도하게 적합(메모리제이션)되는 위험을 내포한다. 저자들은 이를 해결하기 위해 문제 풀이는 환경(environment)으로, 모델은 에이전트(agent)로 보는 강화학습 설정을 차용한다. 핵심 아이디어는 에이전트의 현재 성능을 피드백으로 받아 문제 풀을 변이·선택하는 ‘진화 연산자’를 주기적으로 적용하는 것이다.
두 가지 LLM‑구동 변이 전략이 제시된다. 첫 번째는 컨텍스트 변이로, 문제 서술에 포함된 배경 이야기, 변수명, 수식 표기 등을 바꾸어 동일한 수학적 구조를 유지하면서도 표면적 다양성을 높인다. 이는 모델이 패턴 매칭이 아닌 논리적 추론에 의존하도록 유도한다. 두 번째는 구조 변이로, 문제 자체의 수학적 구조를 변형한다. 예를 들어, 방정식의 차수를 높이거나, 함수 형태를 삼각함수에서 로그함수로 교체하고, 제약조건을 추가·삭제한다. 이때 변이 후보는 사전 훈련된 LLM이 생성하고, 생성된 문제는 자동 검증 모듈을 통해 해답 존재 여부와 난이도(예측 성공률) 등을 평가한다.
진화 과정은 적합도 함수에 의해 제어된다. 적합도는 (1) 현재 모델이 해당 문제를 해결할 확률, (2) 문제의 검증 가능성(해답이 명확히 존재하고 자동 검증 가능), (3) 문제 다양성(중복도 감소) 등을 종합한 가중합으로 정의된다. 적합도가 낮은 문제는 폐기되고, 높은 문제는 복제·변이되어 다음 세대에 전달된다. 이렇게 하면 학습 초기에 쉬운 문제로 시작해 모델이 성장함에 따라 점진적으로 난이도가 상승한다는 ‘커리큘럼 학습’ 효과가 자연스럽게 발생한다.
실험에서는 GPT‑3.5‑Turbo 기반의 LLM을 변이 엔진으로 사용하고, 강화학습 알고리즘으로 PPO를 적용했다. DÉJÀQ를 10만 단계 학습시킨 결과, 정적 데이터셋만을 사용한 베이스라인 대비 평균 정답 정확도가 12%p 상승했으며, 특히 고난이도 문제군에서 18%p 이상의 개선을 보였다. 또한 생성된 문제의 96%가 자동 검증을 통과했으며, 인간 평가에서도 “의미 있는 수학 문제”로 89% 이상의 긍정적 평가를 받았다.
계산 비용 측면에서는 변이 단계가 전체 학습 시간의 약 15%를 차지했으나, GPU 활용률은 변이 연산이 CPU 기반이므로 기존 학습 파이프라인에 큰 영향을 주지 않았다. 저자들은 변이 엔진을 경량화하거나, 변이 후보를 사전 필터링하는 방법으로 추가 최적화 가능성을 제시한다.
이 논문은 데이터 자체를 학습 대상의 일부로 보는 혁신적 접근을 통해, 정적 데이터에 의존하는 현재의 LLM 학습 한계를 넘어서는 가능성을 보여준다. 특히 수학·코딩 같은 구조화된 문제 영역에서 동적 데이터 진화가 모델의 일반화와 추론 능력을 크게 향상시킬 수 있음을 실증하였다. 향후 다른 도메인(예: 과학 실험 설계, 법률 사례 분석)에도 적용 가능성이 높으며, 오픈소스 코드와 데이터셋을 공개함으로써 커뮤니티 기반 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기