다중 과제 학습이 세계 표현을 수렴시키고 발산 과제는 새로운 도시 통합을 방해한다

다중 과제 학습이 세계 표현을 수렴시키고 발산 과제는 새로운 도시 통합을 방해한다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 실제 도시 좌표를 “세계”로 삼고 7가지 기하학적 과제를 데이터 생성기로 사용하여, 단일 과제와 다중 과제 학습이 내부 표현의 기하학에 미치는 영향을 체계적으로 조사한다. 단일 과제는 서로 다른 표현 형태를 만들지만, 과제들을 동시에 학습하면 표현이 높은 정렬성을 보이며 수렴한다. 그러나 다중 과제 사전학습 후에도 특정 “발산” 과제는 새로운 도시(Atlantis)를 미세조정할 때 표현 통합을 방해하고 일반화 성능을 저하시킨다.

상세 분석

이 연구는 세계‑데이터‑모델 프레임워크를 명확히 구분함으로써, 동일한 잠재 세계(5,075개 실제 도시 좌표) 위에 서로 다른 데이터 생성 과제가 어떻게 내부 표현을 형성하는지를 정량·정성적으로 분석한다. 먼저, 각 과제(거리, 각도, 교차, 내부 여부 등)를 단일로 학습시켰을 때, PCA와 선형 프로브 결과는 과제마다 전혀 다른 기하학적 구조를 보여준다. 예를 들어 거리 과제는 실선 형태의 “스레드” 구조를, 각도 과제는 2차원 매니폴드 형태를, 컴퍼스 과제는 파편화된 군집을 형성한다. 이러한 차이는 CKA(Centered Kernel Alignment) 측정에서도 드러나며, 동일 과제 내에서도 시드에 따라 변동이 크지만, 과제 간 차이는 일관되게 나타난다.

다음으로 다중 과제 학습을 수행했을 때, 특히 두 개 혹은 세 개의 과제를 동시에 학습한 모델은 CKA 값이 0.85에 달할 정도로 높은 정렬성을 보이며, 시드 간 변동도 크게 감소한다. 흥미롭게도, 단일 학습에서는 수렴하지 못하던 ‘교차’ 과제도 다른 과제와 쌍을 이루면 성공적으로 학습된다. 이는 하나의 과제가 다른 과제로부터 이미 형성된 좌표 표현을 빌려 학습이 가능해지는 메커니즘을 시사한다.

적응 실험에서는 사전학습된 7‑과제 모델에 새로운 100개의 가상 도시(Atlantis)를 추가하고, 전체 모델을 미세조정한다. 여기서 “발산” 과제로 분류된 몇몇 과제(예: 거리와 내부 여부)는 미세조정 시 새로운 도시의 좌표를 일관되게 재구성하지 못하고, 다른 과제에 비해 CKA 감소와 일반화 오류가 크게 나타난다. 즉, 다중 과제 사전학습이 전체적인 표현 수렴을 촉진하더라도, 특정 과제는 새로운 엔터티를 세계 표현에 통합하는 과정에서 구조적 충돌을 일으킨다.

이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 과제 다양성이 모델 내부의 세계 표현을 수렴시키는 핵심 요인임을 실험적으로 입증한다. 이는 ‘플라토닉 표현 가설(Platonic Representation Hypothesis)’의 다중 과제 스케일링 가설(Multitask Scaling Hypothesis)을 부분적으로 뒷받침한다. 둘째, 모든 과제가 동일하게 긍정적이지 않으며, 일부 과제는 “발산” 특성을 가져 사후 적응(새로운 엔터티 통합)에서 성능 저하를 초래한다는 경고를 제공한다. 따라서 실제 대규모 모델을 설계할 때는 과제 선택과 조합에 대한 정교한 설계가 필요함을 시사한다.


댓글 및 학술 토론

Loading comments...

의견 남기기