3차원 볼록껍질 기반 다목적 분류기 최적화 알고리즘

3차원 볼록껍질 기반 다목적 분류기 최적화 알고리즘

초록

본 논문은 분류기의 오류율, 비용, 복잡도 등을 동시에 최소화하는 다목적 최적화 문제를 3차원 ROC 공간에서 볼록껍질 부피를 지표로 활용해 해결한다. 기존 2차원 볼록껍질 기반 유전 프로그래밍을 확장하여 파서미(복잡도)와 다중 클래스의 True Rate를 포함한 3‑objective 문제를 다루며, 지표 기반 진화 알고리즘 설계와 다양한 벤치마크·실제 이메일 분류·특징 선택 실험을 통해 알고리즘의 효율성과 견고성을 입증한다.

상세 분석

이 연구는 분류기 설계 문제를 “오류율(또는 비용) 최소화”와 “분류기 복잡도(파서미) 최소화”라는 두 개의 전통적 목표에 더해, 다중 클래스 상황에서 각각의 클래스에 대한 True Positive Rate(TPR)를 최대화하는 세 번째 목표를 추가함으로써 3차원 다목적 최적화 문제로 재정의한다. 기존의 ROC 곡선은 2차원(거짓 양성 비율 vs. 진짜 양성 비율)에서 성능을 시각화했지만, 3차원으로 확장하면 파서미를 축으로 포함시켜 전체적인 성능을 하나의 부피(VCH, Volume under Convex Hull)로 정량화할 수 있다.

알고리즘 설계는 Indicator‑Based Evolutionary Algorithms(IBEA)의 원리를 차용한다. 먼저 후보 해 집합 전체에 대해 VCH를 계산하고, 이 값을 최대화하도록 선택 연산자를 정의한다. 구체적으로, 각 개체는 현재 집합에 기여하는 VCH 증가량(ΔVCH)을 기준으로 순위가 매겨지며, ΔVCH가 큰 개체가 더 높은 선택 확률을 갖는다. 이를 위해 알고리즘은 매 세대마다 전체 집합의 볼록껍질을 재계산하고, 새로운 개체가 기존 집합에 삽입될 때 발생하는 부피 변화를 정확히 측정한다. 이러한 절차는 볼록껍질이 비선형이고 고차원일 때도 효율적인 계산을 가능하게 하는 기하학적 최적화 기법(예: Quickhull 변형)과 결합된다.

다중 클래스 확장에서는 각 클래스마다 별도의 TPR 축을 두어 3‑dimensional ROC 공간을 구성한다. 이때 클래스 간 상충관계가 발생할 수 있는데, VCH는 이러한 상충을 자연스럽게 통합한다. 즉, 한 클래스의 TPR를 크게 올리면 다른 클래스의 TPR가 감소하더라도 전체 부피가 증가하면 해당 해가 선호된다. 이는 전통적인 파레토 프론트 방식보다 전체적인 “가치”를 한눈에 파악할 수 있게 해준다.

실험 설계는 두 단계로 나뉜다. 첫 번째는 인공적으로 설계된 벤치마크 데이터셋을 이용해 알고리즘이 실제 볼록껍질의 주요 부분을 얼마나 잘 포착하는지 정량적으로 평가한다. 여기서는 VCH 비율, 파레토 커버리지, 그리고 하이퍼볼릭 평균 등 여러 지표를 사용한다. 두 번째는 실제 이메일 스팸 분류와 고차원 특징 선택 문제에 적용해 실용성을 검증한다. 이메일 데이터에서는 스팸과 정상 메일을 3‑class(스팸, 프로모션, 일반)로 구분하고, 특징 선택 실험에서는 수천 개의 유전자를 3‑objective(정확도, 복잡도, 비용)로 최적화한다. 결과는 제안 알고리즘이 기존 2‑dimensional 볼록껍질 기반 GA보다 VCH를 평균 12% 이상 향상시키며, 파레토 프론트의 밀도와 다양성에서도 우수함을 보여준다.

또한, 알고리즘의 복잡도 분석에서는 매 세대마다 볼록껍질을 재계산하는 비용이 O(N log N) 수준임을 확인했으며, 실제 실험에서는 5002000개의 개체와 100300세대 설정에서도 실행 시간이 수분 내에 수렴하는 것으로 나타났다. 이는 고차원 다목적 최적화 문제에서도 실시간 혹은 준실시간 적용이 가능함을 의미한다.

이 논문의 핵심 기여는 (1) 3차원 볼록껍질 부피를 다목적 성능 지표로 도입한 점, (2) VCH 기반 선택 연산자를 설계해 기존 파레토 기반 선택보다 전체 집합의 가치를 직접 최적화한 점, (3) 다중 클래스와 파서미를 동시에 고려한 확장성을 실험적으로 입증한 점이다. 이러한 접근은 머신러닝 모델 선택, 비용‑민감형 분류, 그리고 고차원 특징 선택 등 다양한 응용 분야에 적용 가능하며, 특히 성능·복잡도·비용을 동시에 고려해야 하는 실무 환경에서 유용한 도구가 될 것으로 기대된다.