신경기호학 학습 불균형의 원인과 완화 전략
초록
본 논문은 신경기호학(NSL) 학습에서 심볼릭 변환 σ가 클래스별 위험에 미치는 영향을 이론적으로 규명하고, 숨겨진 라벨의 주변분포를 약한 라벨만으로 추정한 뒤, 학습 및 추론 단계에서 이를 제약으로 활용하는 두 가지 완화 알고리즘을 제안한다. 실험 결과, 기존 NSL 및 장기 꼬리 학습 기법 대비 최대 14%의 성능 향상을 확인하였다.
상세 분석
논문은 먼저 NSL 설정을 N E S Y라 명명하고, 입력 벡터 x = (x₁,…,x_M)와 그에 대한 심볼릭 변환 σ(y₁,…,y_M)=s만을 이용해 신경망 f를 학습한다는 전제를 둔다. 여기서 y_i는 숨겨진 골드 라벨, s는 약한 라벨이다. 기존 연구는 주로 데이터 불균형(클래스 빈도 차)만이 클래스별 위험 차이를 초래한다고 보았지만, 저자는 σ 자체가 위험 전이 행렬 Σ_{σ,r}를 형성해 클래스별 위험 Φ_{σ,j}(·)에 비선형적으로 영향을 미친다는 새로운 현상을 발견한다. 이를 수학적으로 표현하기 위해 H(f)라는 c×c 행렬을 정의하고, 부분 위험 R_P(f;σ)=h(f)^T Σ_{σ,r} h(f) 형태의 2차 형식으로 전개한다. 이후 각 클래스 j에 대해 최악 위험을 구하는 비선형 프로그램(2)을 제시하고, Φ_{σ,j}(·)가 σ와 라벨 주변분포 r에 따라 어떻게 달라지는지를 분석한다. 특히, σ가 M‑unambiguous일 경우 기존의 완화 경계와 비교해 더 엄격한 상한을 제공함을 증명한다.
이론적 결과를 바탕으로 두 가지 실용적 기여를 제시한다. 첫째, 약한 라벨의 경험적 분포 p와 σ의 역함수 σ⁻¹를 이용해 다항식 시스템 p = G(r) 를 구성하고, 이를 풀어 숨겨진 라벨의 주변분포 r̂를 일관적으로 추정한다. 이는 기존에 골드 라벨이 필요하던 방법과 달리 완전 약학습 환경에서도 적용 가능하다. 둘째, 추정된 r̂를 제약으로 활용하는 두 알고리즘을 설계한다. 학습 단계에서는 라벨별 가중치를 조정한 의사라벨링을 선형계획법으로 최적화해 H(f) 행렬을 균형 있게 만들고, 테스트 단계에서는 반강체 최적수송(robust semi‑constrained OT)을 이용해 모델 출력이 r̂와 일치하도록 보정한다.
실험에서는 MNIST, CIFAR‑10/100 등 이미지 데이터와 텍스트 기반 N E S Y 태스크에 대해 최신 NSL 베이스라인(예: LENS, NSL‑PLL)과 장기 꼬리 학습 기법(예: LDAM, BalancedSoftmax)을 비교하였다. σ가 max, sum, logical‑or 등 다양한 형태일 때도 제안 방법이 클래스별 정확도 편차를 현저히 감소시켰으며, 전체 정확도는 최대 14%까지 향상되었다. 또한, 기존 장기 꼬리 방법을 그대로 적용하면 σ에 의해 발생하는 불균형을 보정하지 못해 성능이 급격히 저하되는 경우를 확인하였다.
결론적으로, 이 논문은 NSL 환경에서 학습 불균형이 단순히 데이터 빈도 차가 아니라 심볼릭 변환 σ에 의해 구조적으로 발생한다는 중요한 통찰을 제공하고, 약한 라벨만으로 주변분포를 추정해 이를 제약으로 활용하는 실용적인 완화 전략을 제시함으로써 NSL 연구에 새로운 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기