이중군집 최적화 근사비율: 행·열 독립 클러스터링의 이론적 한계

본 논문은 행과 열을 각각 독립적으로 최적의 1‑way 클러스터링한 뒤, 그 교차로 형성되는 서브매트릭스(이중군집)의 비용을 평가한다. 0‑1 행렬에 대해 L₁ 거리에서는 최악의 근사비율이 1 + √2(≈2.414)임을, 실수 행렬에 대해 L₂ 거리에서는 2임을 증명한다. 이는 기존의 NP‑hard 이중군집 문제에 대해 매우 간단한 알고리즘이 이론적 보장을 제공한다는 점에서 의미가 크다.

저자: Kai Puolamäki, Sami Hanhijärvi, Gemma C. Garriga

본 논문은 행과 열을 동시에 군집화하는 이중군집(biclustering) 문제의 근사 알고리즘을 제시하고, 그 이론적 성능을 정량화한다. 이중군집은 행 집합 R과 열 집합 C의 교차에 의해 형성되는 서브매트릭스 X(R, C)를 가능한 한 균일하게 만드는 것이 목표이며, 이는 각 서브매트릭스의 내부 변동성을 최소화하는 비용 함수로 표현된다. **문제 정의와 비용 모델** - 입력: N × M 행렬 X, 행 클러스터 수 K_r, 열 클러스터 수 K_c. - 비용 함수 V(Y): L₁‑norm에서는 각 원소와 중앙값(median) 차이의 절대값 합, L₂‑norm에서는 평균(mean) 차이의 제곱합. - 행 전용 비용 V_R(Y)와 열 전용 비용 V_C(Y)는 각각 행(열) 방향으로 V를 누적한 값이다. **제안 알고리즘** 1. 행 벡터들을 K_r 클러스터로 최적(또는 근사) 1‑way 클러스터링(kcluster)한다 → 파티션 R={R₁,…,R_{K_r}}. 2. 열 벡터들을 K_c 클러스터로 동일하게 클러스터링한다 → 파티션 C={C₁,…,C_{K_c}}. 3. 최종 bicluster 집합은 모든 (R_i, C_j) 쌍에 대한 서브매트릭스 X(R_i, C_j)이다. 이 과정은 행·열을 독립적으로 최적화하므로, 전통적인 동시 최적화 방식보다 구현이 간단하고 기존의 고성능 클러스터링 라이브러리를 그대로 재사용할 수 있다. **이론적 분석** 핵심 정리는 Lemma 2로, 모든 bicluster Y에 대해 \

이중군집 최적화 근사비율: 행·열 독립 클러스터링의 이론적 한계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기