효율적인 도메인 적응을 위한 기울기 직교 선택

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OGS는 경량 Navigator 모델과 강화학습을 이용해 일반 지식 앵커와 직교하는 샘플을 선별함으로써, 대규모 LLM의 도메인 파인튜닝 시 catastrophic forgetting을 방지하고 학습 효율을 크게 향상시킨다.

상세 분석

본 논문은 대규모 언어 모델(LLM)의 도메인 적응 과정에서 발생하는 catastrophic forgetting 문제를 기울기 기하학적 관점에서 재조명한다. 기존의 gradient surgery 기법은 매 학습 단계마다 일반 지식에 대한 참조 기울기를 계산하고, 새로운 도메인 기울기를 안전한 하위공간으로 투영하는 방식으로 기억 손실을 방지한다. 그러나 수십억 파라미터를 가진 모델에 대해 매 단계 고차원 투영을 수행하면 메모리·연산 비용이 급증해 실용성이 떨어진다. 반면, 데이터 선택 기반 방법은 사전 필터링만으로 효율성을 확보하지만, 일반 지식과의 충돌을 고려하지 않아 도메인 성능은 높아도 일반 능력은 크게 저하된다.

OGS는 이러한 딜레마를 “데이터 수준에서 기울기 직교성을 보장한다”는 새로운 패러다임으로 해결한다. 핵심 아이디어는 (1) 일반 지식 앵커를 정의하고, (2) 경량 Navigator 모델에서 각 후보 샘플의 기울기와 앵커 기울기 사이의 코사인 유사도를 측정해 직교성(Orth)과 충돌성(Conf) 점수를 산출한다. 여기서 직교성은 |cos|가 작을수록, 충돌성은 -cos 값이 양수일수록 일반 지식에 해를 끼친다. 이러한 지표를 강화학습(RL) 보상 함수에 통합해, 도메인 학습 속도와 일반 지식 보존 사이의 트레이드오프를 최적화한다.

Navigator‑Target 아키텍처는 두 단계로 구성된다. 첫 번째 단계에서 0.5B 규모의 Navigator 모델이 전체 후보 데이터셋에 대해 기울기 기하 정보를 일괄 계산한다. 이 과정은 한 번만 수행되며, 계산 비용이 크게 낮다. 두 번째 단계에서는 학습된 RL 정책을 그대로 적용해 대규모 Target 모델(예: 14B)에게 적합한 샘플만을 선택한다. 따라서 학습 중에는 전혀 추가적인 기울기 계산이나 투영 연산이 필요하지 않아 기존 LoRA 파인튜닝 파이프라인과 완벽히 호환된다.

이론적으로는 OGS의 선택 기준이 1차 근사 형태의 bilevel 최적화 문제(도메인 손실 최소화 + 일반 손실 제약)의 최적해와 동일함을 증명한다. 실험에서는 의료, 법률, 금융 등 세 개의 고수준 도메인에서 1.7B~~14B 파라미터 모델을 대상으로, 기존 gradient surgery 방법보다 2배 이상 빠른 학습 속도와 함께 도메인 정확도 3~~5%p 상승, 일반 벤치마크(GSM8K, MMLU) 성능 유지 혹은 소폭 향상을 달성했다. 특히, 일반 지식 앵커를 능동적으로 선택하는(active anchor) 전략이 기억 손실을 최소화하는 데 큰 기여를 함을 확인했다.

요약하면 OGS는 (1) 기울기 기하학을 데이터 선택 단계로 이동, (2) 경량 모델을 통한 비용 효율적 사전 분석, (3) 강화학습 기반 동적 커리큘럼 설계라는 세 가지 혁신을 결합해, 대규모 LLM의 도메인 적응을 안전하고 효율적으로 수행할 수 있는 새로운 프레임워크를 제시한다.

효율적인 도메인 적응을 위한 기울기 직교 선택

초록

상세 분석

댓글 및 학술 토론

의견 남기기