BiSSL 이중 수준 최적화로 자기지도 사전학습과 다운스트림 파인튜닝 정렬 강화

BiSSL 이중 수준 최적화로 자기지도 사전학습과 다운스트림 파인튜닝 정렬 강화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

BiSSL은 기존 자기지도 사전학습과 다운스트림 파인튜닝 사이에 중간 단계로 이중 수준 최적화(bilevel optimization)를 도입한다. 하위 수준에서는 기존 프리텍스트 손실을 최소화하고, 상위 수준에서는 다운스트림 손실을 최소화하면서 두 단계의 파라미터가 서로 정렬되도록 정규화한다. 이를 통해 사전학습된 백본이 다운스트림 작업에 더 적합한 초기화값을 제공하게 된다.

상세 분석

본 논문은 자기지도 학습(SSL)에서 흔히 발생하는 “프리텍스트와 다운스트림 간 정렬 불일치” 문제를 근본적으로 해결하고자 한다. 기존 SSL 파이프라인은 프리텍스트 손실을 최소화한 뒤, 그 결과를 그대로 파인튜닝에 사용한다. 그러나 프리텍스트가 학습한 표현이 다운스트림 도메인에 최적화되지 않은 경우, 파인튜닝 단계에서 큰 성능 저하가 발생한다. BiSSL은 이 두 단계 사이에 이중 수준 최적화라는 수학적 프레임워크를 삽입함으로써, 프리텍스트와 다운스트림 목표를 동시에 고려한다.

구체적으로, 하위 수준(Lower‑level) 최적화는 전통적인 SSL 프리텍스트 손실 (L_P)와 백본 파라미터 (\theta_P) 사이의 거리 정규화 항 (\lambda r(\theta_P,\theta_D))를 최소화한다. 여기서 (\theta_D)는 상위 수준에서 사용되는 백본 파라미터이며, 정규화 항은 두 백본이 서로 너무 멀어지지 않도록 강제한다. 상위 수준(Upper‑level) 최적화는 다운스트림 손실 (L_D)를 두 번 사용한다. 첫 번째는 하위 수준에서 얻은 최적화된 백본 (\theta_P^*(\theta_D))를 이용하고, 두 번째는 현재 상위 수준 백본 (\theta_D) 자체를 이용한다. 이렇게 함으로써 상위 수준은 하위 수준의 최적화 경로에 직접적인 영향을 미칠 수 있다는 점이 핵심이다.

수식적으로는 상위 수준 목표
\


댓글 및 학술 토론

Loading comments...

의견 남기기