도메인 상호작용이 가져오는 비대칭·순서민감 강화학습 효과
초록
본 논문은 그룹 상대 정책 최적화(GRPO)를 이용해 수학·과학·논리·퍼즐 네 가지 추론 도메인에서 다중 도메인 학습 전략을 체계적으로 평가한다. 단일 도메인 학습은 수학에 가장 큰 전이 효과를 보이며, 도메인 순서는 성능에 큰 영향을 미친다. 최적 순서(수학→과학)와 혼합 학습이 각각 특정 도메인에 최적이며, 부적절한 순서는 평균 정확도를 크게 낮춘다.
상세 분석
이 연구는 최근 주목받는 강화학습 기반 언어 모델 튜닝 기법인 그룹 상대 정책 최적화(GRPO)의 다중 도메인 적용 가능성을 실증적으로 탐구한다. 저자들은 네 개의 대표 추론 도메인(수학, 과학, 논리, 퍼즐)을 선정하고, 각각 5천 개의 훈련 샘플과 별도 테스트 세트를 구축하였다. 모델은 사전학습된 Qwen‑3‑4B‑Base를 사용했으며, 배치 크기 256, 학습률 1e‑6, 15 epoch 동안 GRPO를 적용하였다.
실험은 크게 세 축으로 진행된다. 첫째, 단일 도메인 학습이 다른 도메인에 미치는 전이 효과를 측정한다. 결과는 수학이 가장 전이성이 높아, 다른 도메인(과학, 논리, 퍼즐)에서 학습해도 수학 정확도가 평균 +25%p 상승한다는 점을 보여준다. 반면 논리와 퍼즐은 다른 도메인으로부터 거의 전이를 받지 못하고, 자체 데이터에서만 큰 성능 향상이 나타난다. 이는 사전학습 단계에서 수학적 지식이 풍부히 축적된 반면, 논리·퍼즐은 상대적으로 부족했을 가능성을 시사한다.
둘째, 두 도메인 간 순차 학습(예: 수학→과학 vs. 과학→수학)의 상호작용을 분석한다. 수학→과학 순서는 두 도메인 모두에서 높은 정확도(수학 83%, 과학 41%)를 기록했지만, 반대 순서는 수학 77%, 과학 25%로 급격히 저하된다. 이는 특정 도메인의 학습이 다른 도메인의 정책 파라미터를 ‘덮어쓰기’하거나, 보상 구조가 충돌할 때 발생하는 ‘망각(forgetting)’ 현상으로 해석될 수 있다. 논리와 과학의 경우도 유사하게 과학이 논리 성능을 억제하는 현상이 관찰됐으며, 혼합 학습(동시 학습)으로 이를 완화할 수 있었다.
셋째, 세 도메인 이상을 동시에 다루는 다중 도메인 학습 전략을 비교한다. 순차 학습에서는 도메인 순서가 평균 정확도에 14%p 이상의 차이를 만들었다(최고 84% vs 최저 56%). 특히 ‘논리→수학→과학’ 순서는 전체 평균 84%에 근접했지만, ‘과학→수학→논리’ 순서는 평균 56%에 머물렀다. 반면 혼합 학습(수학+과학+논리)에서는 과학과 논리에서 상대적으로 높은 정확도(과학 40%, 논리 95%)를 달성했으며, 이는 특정 도메인이 다른 도메인에 방해받지 않도록 균형 잡힌 보상 신호를 제공하기 때문이다.
핵심 인사이트는 다음과 같다. (1) 도메인 간 전이 효과는 비대칭적이며, 수학이 가장 ‘수용성’이 높다. (2) 학습 순서는 정책 파라미터의 공유 방식에 직접적인 영향을 미쳐, 부적절한 순서는 심각한 성능 저하를 초래한다. (3) 최적의 다중 도메인 학습은 도메인 특성에 따라 순차 혹은 혼합 방식을 선택해야 하며, 하나의 보편적 전략은 존재하지 않는다. 이러한 발견은 대규모 언어 모델을 다목적 추론 에이전트로 확장할 때, 도메인‑특화 보상 설계와 학습 스케줄링이 필수임을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기