유틸리티 기반 학습을 위한 R 패키지 UBL
UBL 패키지는 비용·이익이 균등하지 않은 분류·회귀 문제를 다루기 위해 데이터 전처리 기법을 제공한다. 언밸런스와 사용자 선호를 반영한 언더·오버샘플링, SMOTE, 가우시안 노이즈 등 다양한 방법을 R 환경에서 손쉽게 적용할 수 있다.
저자: Paula Branco, Rita P. Ribeiro, Luis Torgo
이 논문은 비용·이익이 균등하지 않은 분류와 회귀 문제, 즉 유틸리티 기반 학습(Utility‑Based Learning) 문제를 해결하기 위한 R 패키지 UBL을 소개한다. 먼저 유틸리티 기반 학습의 정의와 필요성을 설명한다. 현실 세계에서는 특정 클래스나 목표값 구간이 다른 것보다 더 중요한 경우가 많으며, 이러한 선호도는 종종 명시적인 비용·이익 행렬이나 표면으로 표현되지 않는다. 따라서 모델이 단순히 전체 정확도만을 최적화하는 전통적인 학습 방법은 실제 비즈니스·의료·기후 등 분야에서 부적절할 수 있다.
UBL은 이러한 문제를 데이터 전처리 단계에서 해결한다. 전처리 전략은 크게 네 가지로 구분된다. 1) 무작위 언더샘플링(RandUnderClassif, RandUnderRegress) – 다수 클래스 샘플을 감소시켜 클래스 비율을 맞춘다. 2) 무작위 오버샘플링(RandOverClassif) – 소수 클래스를 복제하여 균형을 맞춘다. 3) SMOTE 기반 오버샘플링(SmoteClassif, SmoteRegress) – 기존 샘플 주변에 합성 샘플을 생성한다. 4) 특수 변형 기법 – 회귀에서는 가우시안 노이즈 삽입(GaussNoiseRegress) 등을 통해 고값 영역에 노이즈를 추가, 모델이 해당 영역을 더 잘 학습하도록 돕는다.
패키지는 또한 거리 함수(HEOM, HVDM 등)를 제공하여 명목형·수치형 변수를 동시에 고려한 샘플 선택이 가능하도록 한다. 이는 데이터에 명목형 변수가 포함된 경우 Euclidean 거리 대신 적절한 거리 측정이 필요함을 반영한다.
사용자는 직접 비용·이익 정보를 제공할 수도 있지만, 제공되지 않을 경우 자동으로 ‘관련도(relevance)’ 함수를 추정하는 기능도 포함한다. 이 자동 방법은 데이터 분포를 분석해 희소한 사례에 높은 관련도를 부여한다. 즉, “소수 클래스가 가장 중요”하다는 일반적인 가정을 기반으로 한다.
논문은 두 개의 인공 데이터셋을 통해 UBL의 기능을 시연한다. 첫 번째 데이터셋 ImbC는 다중 클래스 분류 문제로, 전체 1000개의 샘플 중 normal 클래스가 85.9%를 차지하고 rare1, rare2가 각각 1%와 13.1%를 차지한다. 기본 SVM 모델은 소수 클래스를 전혀 예측하지 못하고 다수 클래스만 예측한다. SMOTE와 무작위 오버샘플링을 적용하면 rare1, rare2에 대한 재현율이 크게 향상되지만, normal 클래스의 정확도는 감소한다는 전형적인 트레이드오프가 관찰된다.
두 번째 데이터셋 ImbR은 회귀 문제로, 950개의 샘플은 2차원 정규분포에서, 50개의 샘플은 원형(원주)에서 추출되며, 목표값이 높은 영역이 소수 사례로 간주된다. 기본 랜덤 포레스트 모델은 고값 영역을 과소 예측하는 경향을 보인다. 가우시안 노이즈를 추가한 데이터로 재학습하면 고값 영역의 예측 오차가 크게 감소한다. 또한 무작위 언더샘플링, SMOTE와 가우시안 노이즈를 결합한 복합 전처리 전략을 적용하면 전반적인 오류 분포가 개선되고, 시각적으로 오류 크기가 작은 점(녹색)과 큰 점(파란색)으로 구분된 그래프를 통해 성능 향상을 직관적으로 확인할 수 있다.
함수별 파라미터(C.perc, dist, thr.rel 등)와 거리 함수 선택이 결과에 미치는 영향을 상세히 설명함으로써, 사용자가 데이터 특성에 맞는 최적 전처리 파이프라인을 설계할 수 있도록 돕는다.
마지막으로, UBL 패키지는 CRAN에 배포되어 설치가 간편하고, GitHub를 통한 개발 버전도 제공한다. 패키지는 현재 버전 0.0.5이며, 향후 기능 확장을 위한 오픈 소스 구조를 유지한다.
결론적으로, UBL은 비용·이익이 비대칭적인 실제 문제에 대해 데이터 전처리 기반의 실용적인 해결책을 제공한다. 사용자 정의 비용 행렬이 없더라도 자동 관련도 추정과 다양한 샘플링·노이즈 기법을 통해 모델이 중요한 소수 사례에 더 집중하도록 유도한다. 이는 유틸리티 기반 학습을 필요로 하는 다양한 도메인(의료 진단, 금융 사기 탐지, 기후 예측 등)에서 R을 활용하는 연구자와 실무자에게 큰 가치를 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기