회귀 신경망 성능 향상을 위한 드로잉 기법

본 논문은 기존 회귀용 신경망에 ‘드로잉(drawering)’이라는 병렬 분류 헤드를 임시로 추가해 학습을 진행하고, 학습이 끝난 뒤에는 원래 회귀 모델만을 사용하도록 하는 방법을 제안한다. 분류 손실을 함께 최적화함으로써 표현력과 그래디언트 품질을 개선하고, 멀티태스크 정규화 효과를 얻어 회귀 정확도를 높인다.

저자: Konrad Zolna

회귀 신경망 성능 향상을 위한 드로잉 기법
본 논문은 회귀 문제에 특화된 신경망의 학습 효율을 높이기 위해 ‘드로잉(drawering)’이라는 새로운 학습 보조 기법을 제안한다. 기본 아이디어는 기존 회귀 모델 f(x)=g(h(x)) 의 마지막 은닉층 z=h(x) 를 복제하여 두 개의 독립적인 헤드 g 와 s 에 동시에 전달하는 것이다. g 는 기존과 동일하게 1차원 연속값을 예측하고, s 는 z 를 입력받아 목표값 y 가 속하는 구간 e_i (‘drawer’)를 분류하도록 설계된다. 구간은 전체 목표값을 n 개의 연속적인 구간으로 나누어 정의하며, 균등 구간(각 구간에 동일한 샘플 수)과 비균등 구간(극단값에 더 작은 구간을 할당) 두 가지 방식을 제시한다. 또한 구간을 ‘중첩(nested)’ 형태로 정의해 “y가 특정 임계값보다 큰가?”와 같은 이진 질문 형태로 변형할 수도 있다. 학습 단계에서는 두 손실 L_g (회귀 손실, 예: MSE)와 L_s (다중 클래스 교차 엔트로피)를 동시에 최소화한다. 역전파 과정에서 g 와 s 는 각각 ∇_g 와 ∇_s 를 계산하고, h 에 대해서는 ∇_h,g 와 ∇_h,s 라는 두 개의 그래디언트가 발생한다. 두 그래디언트의 크기가 다를 경우 단순 평균을 취하면 한 손실에만 편향될 위험이 있다. 이를 방지하기 위해 각 그래디언트의 L1 노름을 구해 a_g 와 a_s 를 계산하고, 하이퍼파라미터 α (보통 0.5)로 가중합한다: ∇_h = α·∇_h,g + (1‑α)·(a_g/a_s)·∇_h,s. 이렇게 하면 h 가 두 목표 모두에 균형 있게 학습된다. 드로잉 헤드 s 는 학습이 끝난 뒤 폐기되므로, 최종 추론 시에는 원래 회귀 모델 f(x) 만 사용한다. 따라서 파라미터 수는 학습 단계에만 약간 증가하고, 추론 속도와 메모리 사용량은 기존 모델과 동일하게 유지된다. 이와 같은 구조는 멀티태스크 학습에서 흔히 얻는 정규화 효과와, 분류 손실이 제공하는 부드러운 그래디언트 특성을 동시에 활용한다는 장점을 가진다. 실험은 두 개의 실제 데이터셋에 대해 수행되었다. 첫 번째는 Rossmann Store Sales 데이터로, 14개의 입력 피처(12개 범주형, 2개 연속형)를 인코딩해 75차원 입력 벡터를 만든 뒤, h 는 75→64→128 차원의 두 개의 완전 연결 레이어와 ReLU를 사용하고, g 는 128→1 선형 레이어이다. 드로잉을 적용한 모델은 s 에 128→1024→19(드롭아웃, 시그모이드) 구조를 추가했으며, 전체 파라미터가 약 150k 증가했다. 결과적으로 검증·테스트 손실이 크게 감소했으며, 특히 과적합이 심했던 원본 모델 대비 일반화 성능이 향상되었다. 두 번째 실험은 광고 전환 가치 예측 데이터로, 2.1백만 건의 연속형 피처와 목표값(다음 구매 가격)을 사용했다. 여기서는 목표값의 스케일 변동이 커서 그래디언트가 불안정해지는 문제가 있었는데, 드로잉을 통해 추가적인 분류 손실이 그래디언트를 완화하고 학습을 안정화시켰다. 최종 RMSE가 개선되었으며, 학습 곡선에서도 급격한 진동이 감소한 것을 확인했다. 논문은 드로잉 기법이 제공하는 주요 이점을 네 가지로 정리한다. 1) 표현력 강화 – 추가적인 분류 헤드가 목표와 관련된 보조 정보를 학습하게 함으로써 핵심 네트워크 h 가 더 풍부한 특징을 학습한다. 2) 그래디언트 품질 개선 – 분류 손실은 연속형 손실보다 더 부드러운 그래디언트를 제공해 학습을 원활하게 만든다. 3) 정규화 효과 – 멀티태스크 학습과 유사하게 보조 목표가 과적합을 억제한다. 4) 추론 효율성 – 학습 후 헤드를 제거해 원본 모델과 동일한 추론 비용을 유지한다. 한계점으로는 구간 수 n, 구간 정의 방식, α값 등의 하이퍼파라미터 선택이 데이터에 따라 민감하게 작용한다는 점과, s 헤드가 복잡해질 경우 학습 시간과 메모리 요구량이 크게 증가한다는 점을 들었다. 향후 연구에서는 자동화된 구간 탐색, 동적 α 조정, 그리고 s 헤드 구조 최적화 등을 통해 이러한 제약을 완화할 수 있을 것으로 기대한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기