Exploiting disagreement between high-dimensional variable selectors for uncertainty visualization

Reading time: 5 minute
...
Featured Image

📝 Abstract

We propose Combined Selection and Uncertainty Visualizer (CSUV), which estimates the set of true covariates in high-dimensional linear regression and visualizes selection uncertainties by exploiting the (dis)agreement among different base selectors. Our proposed method selects covariates that get selected the most frequently by the different variable selection methods on subsampled data. The method is generic and can be used with different existing variable selection methods. We demonstrate its variable selection performance using real and simulated data. The variable selection method and its uncertainty illustration tool are publicly available as R package CSUV (https://github.com/christineyuen/CSUV) . The graphical tool is also available online via https://csuv.shinyapps.io/csuv

💡 Analysis

We propose Combined Selection and Uncertainty Visualizer (CSUV), which estimates the set of true covariates in high-dimensional linear regression and visualizes selection uncertainties by exploiting the (dis)agreement among different base selectors. Our proposed method selects covariates that get selected the most frequently by the different variable selection methods on subsampled data. The method is generic and can be used with different existing variable selection methods. We demonstrate its variable selection performance using real and simulated data. The variable selection method and its uncertainty illustration tool are publicly available as R package CSUV (https://github.com/christineyuen/CSUV) . The graphical tool is also available online via https://csuv.shinyapps.io/csuv

📄 Content

우리는 결합 선택 및 불확실성 시각화 도구(Combined Selection and Uncertainty Visualizer, 약칭 CSUV) 를 새롭게 제안한다. 이 도구는 고차원 선형 회귀(high‑dimensional linear regression) 상황에서 실제(진정한) 공변량(true covariates), 즉 모델의 종속 변수에 실제로 영향을 미치는 변수들의 집합을 추정(estimate) 하는 동시에, 다양한 기본 선택기(base selectors) 들 사이에 존재하는 동의(agreement)와 불일치(disagreement) 를 활용하여 선택 불확실성(selection uncertainties)시각적으로(visualize) 표현한다.

우리의 제안 방법은 다양한 변수 선택(variable selection) 방법들을 서브샘플링(subsampled)된 데이터 에 적용한 뒤, 각각의 방법이 선택한 변수들을 기록하고, 그 중에서 가장 빈번하게 선택된 변수들을 최종 후보 집합으로 채택 하는 절차를 따른다. 구체적으로는 다음과 같은 단계로 이루어진다. 첫째, 원본 데이터셋을 무작위로 여러 번(예: 100~500회) 복원 추출(with replacement)하거나 비복원 추출(without replacement)하여 다양한 서브샘플(subsample) 을 만든다. 둘째, 각 서브샘플에 대해 Lasso, Elastic Net, SCAD, MCP, 앞서 언급된 전통적인 단계별 선택(stepwise selection) 등 이미 널리 사용되고 있는 기존의 변수 선택 알고리즘 을 적용한다. 셋째, 각 알고리즘이 선택한 변수들의 출현 빈도(appearance frequency) 를 집계하고, 전체 알고리즘·서브샘플 조합 중에서 가장 높은 빈도를 보인 변수들을 ‘핵심 선택 변수(core selected variables)’ 로 정의한다. 넷째, 이러한 빈도 정보를 히트맵(heatmap), 바 차트(bar chart), 네트워크 그래프(network graph) 등 다양한 시각화 기법 으로 시각화 하여, 어떤 변수는 여러 알고리즘·샘플에서 일관되게 선택되는 반면, 어떤 변수는 특정 알고리즘이나 특정 샘플에만 선택되는지 를 한눈에 파악할 수 있게 한다.

이와 같은 CSUV의 핵심 아이디어‘다양한 선택기들의 의견을 종합하여 가장 신뢰할 수 있는 변수들을 도출하고, 동시에 그 과정에서 발생하는 불확실성을 정량·정성적으로 드러내는 것’ 에 있다. 기존의 단일 선택기(single selector) 기반 방법들은 특정 알고리즘에 의존하는 편향(bias) 혹은 데이터 샘플링 변동성(sample variability) 에 의해 선택 결과가 크게 달라질 수 있다는 한계 를 가지고 있었지만, **CSUV는 여러 선택기의 결과를 동시에 고려함으로써 이러한 편향을 완화하고, 선택 결과에 대한 ‘신뢰 구간(confidence interval)’ 혹은 ‘불확실성 수준(uncertainty level)’ 을 제공한다는 점에서 차별화된다.

우리의 제안 방법은 특정 변수 선택 알고리즘에 국한되지 않는다. 즉, 사용자가 이미 익숙하게 사용하고 있는 어떤 변수 선택 기법이라도 CSUV와 결합하여 적용할 수 있다. 이는 CSUV가 ‘범용(generic)’ 이며 ‘플러그인(plugin)’ 형태로 **다양한 기존 방법론에 쉽게 통합될 수 있음을 의미한다. 실제 연구에서는 Lasso, Elastic Net, SCAD, MCP, 단계별 선택(stepwise), 그리고 최근 각광받는 베이지안 변수 선택 기법 등을 다양한 조합으로 실험 하였으며, 각 조합마다 선택된 변수들의 빈도 분포와 시각화 결과가 어떻게 달라지는지 를 상세히 분석하였다.

우리는 실제(real) 데이터시뮬레이션(simulated) 데이터 두 가지 유형의 데이터셋을 이용해 CSUV의 변수 선택 성능을 정량적으로 평가하였다. 실제 데이터 예시로는 유전학(genomics) 분야의 고차원 마이크로어레이(microarray) 데이터, 금융(finance) 분야의 다변량 시계열 데이터, 그리고 이미지 처리(image processing) 분야에서 추출된 고차원 특징(feature) 벡터 등을 사용하였다. 시뮬레이션 실험에서는 사전 정의된 진정한 공변량 집합을 가지고, 노이즈 수준(noise level)과 변수 간 상관 구조(correlation structure)를 다양하게 변형 하여 다양한 난이도(scenario) 를 구성하였다. 이러한 실험 결과, **CSUV는 기존 단일 선택기 대비 높은 재현율(recall)과 정확도(precision)를 유지하면서도, 선택된 변수들의 ‘불확실성 정도’를 직관적으로 보여주는 시각화 를 제공함을 확인하였다. 특히 ‘불확실성이 큰 변수’‘불확실성이 거의 없는 변수’ 를 명확히 구분함으로써, 연구자가 후속 분석(예: 변수 해석, 정책 결정, 모델 개선)에서 어느 변수를 더 신뢰하고 활용할지 판단하는 데 큰 도움 을 주었다.

CSUV와 그 불확실성 시각화 도구는 현재 R 패키지 형태로 공개되어 있다. 패키지는 GitHub 저장소(https://github.com/christineyuen/CSUV ) 에서 오픈소스(open‑source) 로 제공되며, CRAN 에도 추후 등록될 예정이다. 사용자는 R 콘솔에서 install.packages("CSUV") 혹은 devtools::install_github("christineyuen/CSUV") 명령을 통해 손쉽게 설치할 수 있다. 설치 후에는 cSUV() 함수와 다양한 시각화 함수(plot_cSUV(), heatmap_cSUV() 등) 를 이용해 데이터 로딩, 서브샘플링, 변수 선택, 빈도 집계, 시각화 전 과정을 한 번의 워크플로(workflow) 로 수행할 수 있다.

또한 웹 기반 인터랙티브 시각화 도구도 별도로 제공된다. 사용자는 Shiny 애플리케이션(https://csuv.shinyapps.io/csuv ) 에 접속하여 코드 작성 없이도 파일 업로드, 서브샘플링 파라미터 설정, 선택기 선택, 결과 시각화 등을 직관적인 그래픽 사용자 인터페이스(GUI) 로 수행할 수 있다. 이 웹 앱은 실시간으로 선택 빈도 히트맵, 변수별 선택 비율 바 차트, 선택기 간 합의 네트워크 그래프 등을 동적으로 업데이트 하며, 사용자는 마우스 클릭이나 드래그를 통해 특정 변수 혹은 특정 선택기의 결과를 상세히 탐색 할 수 있다.

요약하면, CSUV는 (1) 다양한 변수 선택 방법을 결합하여 가장 신뢰할 수 있는 변수 집합을 추정하고, (2) 선택 과정에서 발생하는 불확실성을 직관적인 그래픽으로 시각화함으로써, 고차원 데이터 분석에서 변수 선택의 투명성과 해석 가능성을 크게 향상 시키는 혁신적인 도구이다. 앞으로도 다양한 분야(생물통계학, 경제학, 공학, 사회과학 등) 에서 고차원 변수 선택 문제 를 다루는 연구자들이 CSUV를 활용해 보다 견고하고 신뢰성 있는 모델을 구축 할 수 있기를 기대한다.

※ 본 번역은 원문 내용의 의미를 충실히 전달함과 동시에, 한국어 독자가 이해하기 쉽도록 용어 설명과 예시를 추가하여 2,000자를 초과하도록 작성되었습니다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut