이중 Relief과 점진적 가중 함수로 강건한 특징 선택
초록
본 논문은 Relief 계열 알고리즘의 확장인 Double Relief와 이를 점진적으로 적용하는 pdReliefF를 제안한다. 기존 Double Relief는 초기 가중치가 부정확해 성능 저하가 발생할 수 있음을 지적하고, 반복 횟수에 따라 가중치 영향을 서서히 증가시키는 함수 f(w,t)를 도입한다. 실험 설계는 무관한 특성 비율이 증가할 때 세 알고리즘(ReliefF, dReliefF, pdReliefF)의 정확도 변화를 비교하며, pdReliefF가 가장 높은 견고성을 보임을 확인한다.
상세 분석
Relief 알고리즘은 인스턴스 간 거리 계산에 모든 특성을 활용해 근접 이웃(hit)과 반대 이웃(miss)을 찾고, 그 차이를 기반으로 특성 가중치를 업데이트한다. 그러나 무관한 특성이 많이 추가되면 거리 계산이 왜곡되어 근접 이웃이 실제로는 멀리 있는 경우가 발생하고, 이는 가중치 추정의 정확도를 크게 떨어뜨린다. 기존의 Double Relief(dReliefF)는 이전 반복에서 얻은 가중치를 거리 계산에 바로 반영함으로써 이 문제를 완화하려 했지만, 초기 단계에서 얻은 가중치는 아직 신뢰할 수 없기 때문에 오히려 성능을 악화시킬 위험이 있다. 이를 해결하기 위해 저자는 가중치 적용 정도를 반복 횟수 t에 따라 점진적으로 조절하는 함수 f(w,t)를 설계하였다. f는 t=0일 때 1(가중치 미적용)이고 t→∞이면 w(완전 적용)로 수렴하도록 정의되며, 매개변수 s와 c(t)=(t/m)^a를 통해 곡선의 급격함을 제어한다. 특히 s=0.06, a=2를 선택하면 전체 반복의 1/3 구간에서는 가중치가 거의 1에 머물고, 이후에야 w에 가까워지는 형태가 된다. 이 설계는 초기 가중치의 불안정성을 최소화하면서도 충분히 많은 샘플을 처리한 뒤에는 기존 Double Relief와 동일한 효과를 얻도록 한다. 실험에서는 6개의 인공 데이터셋(수치형 3개, 범주형 3개)을 사용해 무관한 특성 비율을 단계적으로 증가시켰으며, ReliefF, dReliefF, pdReliefF의 특성 구분 정확도를 비교하였다. 결과는 무관한 특성이 많아질수록 ReliefF의 성능이 급격히 저하되는 반면, dReliefF는 초기 단계에서 과도한 가중치 적용으로 인해 일부 상황에서 불안정성을 보였다. 반면 pdReliefF는 초기에는 전통 Relief와 동일한 동작을 유지하면서 점진적으로 가중치를 반영해, 전체적으로 가장 높은 견고성을 나타냈다. 따라서 제안된 점진적 가중 함수는 Double Relief의 장점을 유지하면서 초기 가중치 편향 문제를 효과적으로 완화한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기