분류 문제에서 T‑노름 연산자 비교

분류 문제에서 T‑노름 연산자 비교

초록

본 논문은 퍼지 규칙 기반 분류 시스템에서 신뢰도와 지지도 계산에 사용되는 T‑노름을 9가지로 바꾸어 적용한 뒤, 각 연산자가 분류 정확도에 미치는 영향을 실험적으로 평가한다. UCI 데이터셋 12개를 대상으로 한 결과, Aczel‑Alsina 연산자가 가장 높은 정확도를 보였으며, 그 뒤를 Dubois‑Prade와 Dombi 연산자가 잇는다.

상세 분석

퍼지 규칙 기반 분류 시스템(FRBCS)은 입력 변수의 퍼지화, 규칙 생성·선택·가중치 부여, 그리고 최종 의사결정 단계로 구성된다. 기존 연구에서는 규칙의 신뢰도(confidence)와 지지도(support)를 계산할 때 곱셈(product) T‑노름을 기본으로 사용했으며, 이는 두 퍼지 멤버십 값의 교집합을 가장 단순히 표현한다는 장점이 있다. 그러나 곱셈은 극단값(0 또는 1) 근처에서 급격히 감소하거나 유지되는 특성을 가지고 있어, 데이터의 불확실성이 클 경우 정보 손실이 발생할 수 있다.

본 연구는 이러한 한계를 극복하고자, Aczel‑Alsina, Dubois‑Prade, Dombi, Hamacher, Schweizer‑Sklar, Yager 등 총 9개의 T‑노름을 도입하여 신뢰도·지지도 계산에 적용하였다. 각 T‑노름은 교집합 연산을 정의하는 방식이 다르며, 파라미터 조정에 따라 연산 결과가 부드럽게 변하거나 강하게 억제되는 특성을 보인다. 예를 들어, Aczel‑Alsina 연산자는 지수 함수를 이용해 작은 값들을 완만하게 감소시키는 반면, Dubois‑Prade 연산자는 최소값과 최대값 사이의 선형 보간을 통해 보다 보수적인 교집합을 제공한다.

연구 방법론은 크게 세 단계로 나뉜다. 첫째, 12개의 UCI 데이터셋(숫자형 특성만 포함)에서 각 특성을 5개의 삼각형 혹은 가우시안 멤버십 함수로 퍼지화하였다. 둘째, 퍼지 규칙을 전부 생성한 뒤, 각 규칙에 대해 선택 기준인 신뢰도·지지도 값을 T‑노름별로 계산하고, 사전 정의된 임계값을 초과하는 규칙만을 후보 집합에 포함시켰다. 셋째, 후보 규칙에 대해 가중치를 부여하는 과정에서도 동일한 T‑노름을 사용해 규칙의 기여도를 재평가하였다. 최종적으로는 가중합 기반의 결합 규칙을 적용해 테스트 샘플을 분류하고, 전체 정확도를 측정하였다.

실험 결과, Aczel‑Alsina 연산자를 적용했을 때 평균 정확도가 가장 높게 나타났으며, 이는 해당 연산자가 작은 멤버십 값들을 과도하게 억제하지 않아 미세한 정보까지 활용할 수 있기 때문이다. Dubois‑Prade 연산자는 보수적인 최소값 기반 특성 덕분에 노이즈가 많은 데이터셋에서 안정적인 성능을 보였으며, Dombi 연산자는 파라미터 λ에 따라 유연하게 조정 가능한 특성으로 중간 수준의 정확도를 제공하였다. 반면, 전통적인 곱셈(product) T‑노름은 일부 데이터셋에서 과도한 값 감소로 인해 정확도가 저하되는 경향을 보였다.

이러한 결과는 FRBCS 설계 시 T‑노름 선택이 단순히 수학적 편의성에 머무르지 않고, 실제 분류 성능에 결정적인 영향을 미친다는 점을 시사한다. 특히, 데이터의 분포와 노이즈 수준에 따라 최적의 T‑노름이 달라질 수 있기에, 시스템 구축 단계에서 여러 T‑노름을 사전 테스트하고 선택하는 것이 권장된다. 또한, 파라미터화된 T‑노름(Dombi, Schweizer‑Sklar 등)의 경우, 파라미터 튜닝을 통해 더욱 향상된 성능을 기대할 수 있다.

본 논문의 한계로는 실험에 사용된 데이터가 전부 수치형 특성에 국한되었으며, 퍼지화 단계에서 동일한 멤버십 함수와 구간을 적용했다는 점이다. 따라서 범주형 데이터나 고차원 데이터에 대한 일반화 가능성은 추가 검증이 필요하다. 향후 연구에서는 다양한 형태의 멤버십 함수, 다중 파라미터 T‑노름 최적화, 그리고 규칙 기반과 딥러닝 기반 하이브리드 모델에 T‑노름을 통합하는 방안을 탐색할 수 있다.