일관성 이중군집을 이용한 새로운 특징 선택 휴리스틱

본 논문은 데이터의 샘플과 특징을 동시에 군집화하는 일관성 이중군집(consistent biclustering) 문제를 특징 선택 관점에서 재정의하고, 이를 0‑1 선형 분수 최적화 문제로 모델링한다. 기존의 휴리스틱보다 더 큰 특징 집합을 찾을 수 있도록, 문제를 이중 수준(bilevel) 형태로 변환하고, 내부 선형 문제를 정확히 풀면서 외부에서는 무작위 탐색과 범위 조정을 통해 해를 개선하는 새로운 휴리스틱 알고리즘을 제안한다. 실험 결과…

저자: Antonio Mucherino, Sonia Cafieri

본 논문은 데이터 마이닝 분야에서 샘플과 특징을 동시에 군집화하는 이중군집(biclustering) 기법을 심도 있게 다룬다. 이중군집은 행렬 A(특징 × 샘플)의 부분 행렬 (S_r,F_r) 로 정의되며, k개의 서로 겹치지 않는 군집 집합 B={(S₁,F₁),…,(S_k,F_k)} 로 표현된다. 특히, “일관성(consistent)”이라는 개념은 샘플 군집 B_S와 특징 군집 B_F 사이에 상호 변환을 수행했을 때 동일한 군집 구조가 유지되는지를 의미한다. 일관성 이중군집이 존재하면, 훈련 데이터의 샘플 라벨을 이용해 특징 라벨을 추정하고, 이를 다시 샘플 라벨 예측에 활용할 수 있어 지도 학습에 매우 유용하다. 그러나 실제 데이터는 노이즈와 불필요한 특징이 많이 포함돼 일관성을 깨뜨리는 경우가 빈번하다. 따라서 최소한의 특징을 제거하면서 가능한 많은 특징을 보존하는 “특징 선택” 문제가 핵심이 된다. 수학적으로는 선택된 특징을 나타내는 0‑1 변수 x_i (i=1…m)와 각 특징이 어느 군집에 속하는지를 나타내는 이진 파라미터 f_{ir}를 도입한다. 일관성을 보장하기 위한 제약식은 두 개의 선형 분수 형태(6)로 표현된다. 분자는 해당 군집에 속한 특징들의 가중합, 분모는 해당 군집에 포함된 특징 수(선택된 경우에만)이다. 이 제약을 만족하면서 ∑_i x_i 를 최대화하는 것이 목표이며, 이는 0‑1 선형 분수 최적화 문제로 귀결된다. 기존 연구

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기