라코GSEA: 비지도 심층학습 기반 경로 분석 혁신
초록
라코GSEA는 자동인코더를 이용해 전사체 데이터를 비선형 저차원 잠재공간으로 압축하고, 각 잠재 차원과 유전자 발현 간 피어슨 상관관계를 전역적인 차별발현 지표로 활용한다. 이 상관값을 기반으로 유전자 순위를 생성한 뒤 기존 GSEA를 그대로 적용함으로써 라벨이 없는 상황에서도 풍부한 경로 정보를 추출한다. 실험 결과, 암 아형 구분, 경로 회복률, 데이터 규모 변화에 대한 강인성 면에서 기존 PCA, SHAP·DeepLIFT 기반 방법 및 단일표본 ssGSEA·GSVA보다 우수함을 보였다.
상세 분석
본 논문은 비지도 전사체 분석에서 경로 수준 해석을 가능하게 하는 새로운 프레임워크인 LaCoGSEA를 제안한다. 핵심 아이디어는 (1) 깊은 자동인코더(AutoEncoder, AE)를 통해 비선형 구조를 학습하고, (2) 잠재 차원 D(≪G)과 원본 유전자 G 사이의 전역 피어슨 상관계수 ρ_{j,k}를 계산해 ‘잠재‑유전자 상관 매트릭스’를 만든다. 이 매트릭스는 각 잠재 차원에 대해 유전자들을 상관값 내림차순으로 정렬한 프리‑랭크 리스트 L_k를 제공한다. 기존 GSEA는 사전 라벨에 의한 차별발현 통계량을 필요로 하지만, 여기서는 ρ_{j,k} 자체가 비지도 차별발현 지표 역할을 하므로 라벨이 없어도 GSEA를 바로 적용할 수 있다.
기술적 구현 측면에서 자동인코더는 L2와 L1을 결합한 Elastic Net 정규화를 손실함수에 포함시켜 과적합을 방지하고, 잠재 차원의 수 D는 4~128 사이에서 실험적으로 최적화하였다. 특히 D≥4에서 경로 검출 수가 급격히 증가하고, D=64를 ‘포화점’으로 선정해 이후 모든 다운스트림 분석에 사용하였다.
경로 검출 성능은 두 가지 지표로 평가되었다. 첫째, 각 잠재 차원별 GSEA 결과에서 FDR<0.05인 경로를 카운트하고, Bonferroni 보정으로 다중 검정 부담을 통제하였다. 자동인코더 기반 모델은 PCA 대비 동일 차원 수에서 2배 이상 많은 KEGG·GO·C6 경로를 검출했으며, 특히 C6 온코제닉 시그니처에서 138개를 안정적으로 포착해 선형 방법의 급격한 성능 저하를 회피했다. 둘째, 모델‑레벨 경로 순위(Rank_model)를 정의해 가장 높은 차원에서의 순위를 최소값으로 채택함으로써 전체 모델이 목표 경로를 얼마나 앞서 탐지하는지를 정량화했다.
샘플 수준 해석은 잠재 표현 z_i와 차원‑경로 NES 행렬 W를 내적해 A_{i,p}=∑k z{i,k}·W_{k,p} 로 계산한다. 이렇게 얻은 경로 활성도 매트릭스는 t‑SNE·K‑means 클러스터링에 투입돼 암 아형(PAM50)과의 일치도를 ARI로 측정하였다. LaCoGSEA는 ARI 0.372로 가장 높은 군집 정확도를 보였으며, 이는 PCA(0.240), GSVA(0.185), GSV A(0.126) 등을 크게 앞선 결과다.
또한, SHAP·DeepLIFT 같은 gradient‑기반 XAI와 비교했을 때, 전역 상관 기반 라벨‑프리 랭킹이 더 밀집된 유전자 집합을 제공해 GSEA의 ‘다수 유전자 동시 상승/하강’ 가정을 충족한다는 점을 실증하였다. 잡음 데이터에 대한 부정적 대조 실험에서도 AE와 PCA 모두 유의미한 경로를 검출하지 않아, LaCoGSEA의 민감도가 실제 생물학적 신호에 기반함을 확인했다.
마지막으로, 다양한 조직(유방, 폐, 림프종, 알츠하이머, 외상 등)과 플랫폼(RNA‑seq, 마이크로어레이)에서 일관된 성능을 유지했으며, 샘플 수가 30명 수준인 소규모 데이터에서도 비교적 안정적인 경로 회복을 보여 강인성을 입증했다. 전체적으로 LaCoGSEA는 (1) 비지도 상황에서의 경로 탐색 가능성, (2) 비선형 표현력, (3) 기존 XAI 대비 경로‑중심 해석 적합성이라는 세 축에서 현존 방법들을 능가한다.
댓글 및 학술 토론
Loading comments...
의견 남기기