지속적 자기개선 AI: 합성 데이터와 자동 알고리즘 탐색을 통한 새로운 패러다임
초록
본 논문은 현대 대형 언어 모델이 인간이 제공하는 데이터와 알고리즘에 의해 제한되는 문제를 해결하고자 세 가지 접근법을 제시한다. 첫째, 소규모 전문 코퍼스를 엔티티‑그래프(EntiGraph) 기반 합성 데이터로 확장해 데이터 효율적인 지속적 지식 습득을 가능하게 한다. 둘째, 제한된 인간 데이터만으로도 자체 생성 합성 데이터를 활용해 사전학습 능력을 부트스트랩하는 방법(Synthetic Bootstrapped Pretraining, SBP)을 제안한다. 셋째, 테스트 시 알고리즘 공간을 대규모 탐색함으로써 인간이 설계한 학습 파이프라인을 넘어서는 AI‑디자인 AI를 구현한다. 실험 결과, 제안된 방법들이 기존 파인튜닝·프리트레인 대비 질의응답, 추론, 지시 수행 등 다양한 벤치마크에서 유의미한 성능 향상을 보이며, 데이터·알고리즘 의존성을 크게 완화함을 입증한다.
상세 분석
이 논문은 현재 대형 언어 모델(LM)이 “데이터‑알고리즘‑인간” 삼중고리 구조에 얽매여 있다는 근본적 한계를 정확히 짚어낸다. 첫 번째 장에서는 지식 습득의 데이터 효율성을 높이기 위해 EntiGraph라는 합성 데이터 파이프라인을 설계한다. 여기서는 소규모 전문 텍스트를 엔티티와 관계로 구조화하고, 이를 기반으로 다양한 문맥·표현을 자동 생성한다. 실험에서는 QuALITY와 같은 고난이도 독해 데이터셋에 대해 기존 파인튜닝 대비 3~5% 절대 정확도 향상을 기록했으며, 특히 “약한 합성 LM”을 사용했을 때도 성능 저하가 미미한 점이 눈에 띈다. 이는 합성 데이터가 원본 코퍼스의 의미적 풍부함을 보존하면서도 표면적 다양성을 크게 확대한다는 증거다.
두 번째 장의 SBP는 제한된 인간 데이터(예: 10B 토큰)만을 사용해 자체 생성 합성 코퍼스를 통해 사전학습을 보강한다는 아이디어다. 핵심은 “데이터‑제한 사전학습” 설정에서, 모델이 자체 생성한 문장을 다시 학습함으로써 데이터 효율성을 2배 이상 향상시키는 것이다. 여기서는 토큰 레벨의 다양성 측정과 퍼플렉시티 감소를 정량화했으며, 대규모(1T 토큰) 실험에서도 동일한 성능을 0.5배 규모의 실제 데이터만으로 재현했다. 이 접근법은 데이터 비용을 크게 낮추면서도 모델의 일반화 능력을 유지한다는 점에서 실용적이다.
세 번째 장은 테스트 시 알고리즘 탐색을 통해 “AI‑디자인 AI”를 구현한다. 구체적으로는 메타‑학습 프레임워크 안에서 학습률, 옵티마이저, 정규화 기법 등 하이퍼파라미터 조합을 대규모 샘플링하고, 실행‑가이드드 진화적 탐색을 적용한다. 실험에서는 기존 베스트‑오브‑N(BO) 대비 1.8배 빠른 수렴과, 동일 연산 예산 하에서 2~3%의 성능 향상을 달성했다. 특히, 자동 아이디어 생성·실행 파이프라인이 인간 연구자보다 더 다양한 알고리즘 구성을 탐색함을 보여, 인간 설계의 한계를 넘어서는 가능성을 시사한다.
전체적으로 논문은 세 가지 독립적인 기여를 통합해 “데이터·알고리즘·인간” 의존성을 단계적으로 감소시키는 로드맵을 제시한다. 다만, 합성 데이터의 품질 보증, SBP에서 발생할 수 있는 모델 자체 편향 강화, 그리고 테스트 시 탐색 비용의 스케일링 문제는 아직 해결되지 않은 과제로 남는다. 향후 연구는 합성 데이터의 사실성 검증 메커니즘, 자기 교정 루프, 그리고 탐색 효율성을 위한 메타‑학습 전략을 개발함으로써 제안된 프레임워크를 보다 견고하고 확장 가능하게 만들 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기