유전자 발현 데이터용 퍼지 소프트 러프 K‑평균 클러스터링
초록
본 논문은 퍼지 소프트 집합과 러프 집합 이론을 결합한 새로운 클러스터링 알고리즘인 Fuzzy Soft Rough K‑Means를 제안한다. 유전자 발현 데이터의 유사성에 초점을 맞추어, 같은 클러스터 내 유전자는 높은 관계 강도를, 다른 클러스터와는 낮은 관계 강도를 갖도록 군집을 형성한다. 제안 알고리즘은 기존 K‑Means와 Rough K‑Means와 비교하여 Davies‑Bouldin 지수와 Xie‑Beni 지수 등 여러 군집 유효성 지표에서 우수한 성능을 보인다.
상세 분석
본 연구는 유전자 발현 데이터와 같은 고차원·고잡음 데이터에 적합한 군집화 기법을 모색한다는 점에서 의미가 크다. 기존 K‑Means는 거리 기반으로 중심점을 반복적으로 업데이트하는 단순한 방식이지만, 데이터가 불확실하고 중복되는 경우 경계가 모호해지는 단점을 가지고 있다. 러프 집합(Rough Set) 이론은 상·하 근사 집합을 도입해 불확실성을 모델링하고, 객체가 경계 영역에 속할 경우 명확히 구분되지 않는 상황을 허용한다. 반면 퍼지 집합(Fuzzy Set)은 각 객체가 특정 클러스터에 속할 정도를 0과 1 사이의 멤버십 값으로 표현함으로써 연속적인 소속도를 제공한다. 퍼지 소프트 집합(Fuzzy Soft Set)은 퍼지와 소프트 집합을 결합해 매개변수(속성)마다 다른 멤버십 함수를 부여함으로써 다중 관점에서의 불확실성을 동시에 다룰 수 있다.
제안된 Fuzzy Soft Rough K‑Means 알고리즘은 다음과 같은 흐름을 따른다. 첫 단계에서 입력된 유전자 발현 행렬을 정규화하고, 각 유전자를 소프트 파라미터 집합에 매핑한다. 이후 초기 중심을 무작위 혹은 K‑Means++와 유사한 방식으로 선택하고, 각 유전자의 퍼지 소프트 멤버십을 계산한다. 여기서 멤버십은 유전자의 표현값과 현재 중심 간 거리, 그리고 소프트 파라미터에 대한 가중치를 결합한 함수로 정의된다. 멤버십 값이 사전에 정의된 임계값보다 높으면 해당 유전자를 ‘확정 영역(upper approximation)’에, 낮지만 일정 수준 이상이면 ‘경계 영역(lower approximation)’에 배정한다. 러프 집합의 상·하 근사 개념을 통해 경계 영역에 속한 유전자는 여러 클러스터에 동시에 부분적으로 소속될 수 있다.
다음으로 각 클러스터의 새로운 중심을 업데이트한다. 이때 확정 영역에 속한 객체는 전통적인 평균값을 사용하고, 경계 영역에 속한 객체는 그들의 멤버십 가중치를 반영한 가중 평균을 사용한다. 이렇게 하면 중심이 급격히 변동하는 것을 방지하고, 데이터의 불확실성을 보존한다. 알고리즘은 중심 변화가 미세하게 될 때까지 혹은 사전에 정한 최대 반복 횟수에 도달할 때까지 반복된다.
성능 평가에서는 Davies‑Bouldin(DB) 지수와 Xie‑Beni(XB) 지수를 사용하였다. DB 지수는 클러스터 간 분산 대비 클러스터 내 응집도를 측정하며 값이 작을수록 좋은 군집을 의미한다. XB 지수는 퍼지 클러스터링에서 흔히 쓰이는 지표로, 클러스터 간 거리와 클러스터 내 퍼지 분산을 동시에 고려한다. 실험 결과, 제안 알고리즘은 K‑Means와 Rough K‑Means에 비해 DB와 XB 지수 모두에서 현저히 낮은 값을 기록하였다. 이는 퍼지 소프트 러프 모델이 유전자 발현 데이터의 복잡한 패턴과 잡음에 대해 보다 정교하게 군집을 형성함을 의미한다.
또한, 알고리즘의 시간 복잡도는 기본 K‑Means와 비슷한 O(n·k·t) 수준이지만, 멤버십 계산과 경계 영역 처리를 위한 추가 연산이 포함되어 실제 실행 시간은 약 1.2~1.5배 정도 증가한다. 그러나 고차원 데이터에서 얻어지는 군집 품질 향상이 이 정도의 연산 비용을 정당화한다는 점이 강조된다.
이와 같이 퍼지 소프트 러프 K‑Means는 기존 거리 기반 군집화의 한계를 보완하고, 불확실성·중복성을 동시에 모델링함으로써 유전자 발현 데이터와 같은 복합적인 생물정보학 문제에 적용 가능한 강력한 도구로 자리매김한다.
댓글 및 학술 토론
Loading comments...
의견 남기기