불확실성 인식 능동 학습으로 대기 이질성 회귀 효율화
초록
본 논문은 대기 입자 특성(독성, 습윤성 등)을 저비용 관측값으로부터 추정하기 위해, 입력에 따라 변하는 잡음(이질성)을 명시적으로 모델링하는 이질성 회귀와 능동 학습을 결합한 프레임워크 CAAL을 제안한다. 평균과 분산을 별도로 학습하는 디커플링 손실과, 예측된 알레아토릭 불확실성을 신뢰도 가중치로 활용하는 획득 함수를 통해, 제한된 라벨링 예산 하에서도 에피스테믹 불확실성이 높은, 즉 학습 가치가 큰 샘플을 효율적으로 선택한다. 실험 결과, 시뮬레이션 및 실제 대기 데이터에서 기존 능동 학습 방법보다 높은 R² 향상과 라벨 절감 효과를 입증한다.
상세 분석
CAAL은 대기 과학에서 흔히 마주치는 이질성(heteroscedastic) 회귀 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫 번째는 평균과 분산을 별도 손실로 최적화하는 디커플링 훈련 전략이다. 기존의 Gaussian NLL은 평균과 분산이 동일한 그래디언트 흐름에 묶여 있어, 잡음이 큰 샘플에 대해 모델이 분산을 과도하게 확대함으로써 평균 학습이 약화되는 현상이 발생한다. 이를 방지하기 위해 CAAL은 평균에 대해 MSE 손실을, 분산에 대해서는 스톱‑그래디언트(stop‑gradient)를 적용한 NLL 형태의 손실을 각각 적용한다. 이렇게 하면 분산 학습이 평균 파라미터에 역전파되지 않아 평균 예측이 잡음에 의해 왜곡되지 않으며, 동시에 분산 예측은 실제 잔차 스케일을 반영하도록 학습된다. 두 번째 핵심은 ‘신뢰도‑가중 에피스테믹 불확실성’이라는 새로운 획득 함수이다. 이 함수는 각 샘플에 대해 에피스테믹 불확실성(모델 파라미터에 대한 불확실성)과 알레아토릭 불확실성(입력‑출력 관계의 본질적 변동성)을 분리하고, 알레아토릭 불확실성이 낮은 영역에서만 에피스테믹 불확실성을 강조한다. 즉, 높은 알레아토릭 불확실성을 가진 영역은 “신뢰도 낮음”으로 간주해 가중치를 감소시키고, 반대로 잡음이 적은 영역에서는 에피스테믹 불확실성을 그대로 활용한다. 이러한 동적 가중치는 배치 기반 선택 시 중복을 최소화하고, 라벨링 비용이 높은 대기 입자 시뮬레이션이나 실험에서 실제로 학습 효과가 큰 샘플을 우선적으로 확보한다. 모델은 Deep Ensembles를 사용해 근사 베이지안 추정을 수행하며, 평균과 분산을 각각 독립적인 헤드로 출력한다. 실험에서는 510개의 앙상블 멤버를 사용했으며, 각 멤버는 동일한 트렁크와 별도 평균·분산 헤드를 갖는다. 결과적으로 CAAL은 기존의 불확실성 기반, 대표성 기반, 혹은 혼합형 획득 전략에 비해 1015% 정도의 R² 향상을 보였으며, 라벨링 수를 40~50% 절감했다. 특히, 데이터가 고도로 이질적인 영역(예: 급격한 기상 변화나 복합 오염원 혼합)에서 기존 방법이 과도한 잡음에 의해 성능이 급락하는 반면, CAAL은 알레아토릭 불확실성을 신뢰도 신호로 활용해 이러한 함정을 회피한다. 전체적으로 CAAL은 이질성 회귀와 능동 학습을 결합한 새로운 패러다임을 제시하며, 대기 과학뿐 아니라 다른 과학·공학 분야에서도 고비용 라벨링이 필요한 상황에 적용 가능할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기