유전자 네트워크 역설계와 인공신경망: 변동성 분석과 성능 비교

초록

본 논문은 다층 퍼셉트론 기반의 RegnANN 알고리즘을 기존의 ARACNE, CLR, KELLER와 비교하여 유전자 조절 네트워크 추론 시 발생하는 변동성을 체계적으로 평가한다. 합성 데이터와 대장균(E. coli) 유전자 모듈을 이용한 실험 결과, 모든 방법이 네트워크 토폴로지 재구성에서 불안정성을 보였지만 RegnANN이 MCC 점수 면에서 가장 우수한 성능을 나타냈다.

상세 요약

RegnANN은 다층 퍼셉트론(MLP)을 활용해 각 유전자를 타깃으로 하는 회귀 모델을 구축하고, 입력‑출력 관계를 기반으로 상호작용을 추정한다. 이때 네트워크 구조에 내재된 복잡성(노드 수, 연결 밀도, 피드백 루프)과 데이터 샘플링(노이즈 수준, 시계열 길이, 재현성) 두 축이 추론 결과의 변동성을 주도한다는 가설을 검증한다. 실험은 크게 두 파트로 나뉜다. 첫 번째는 토폴로지가 사전에 정의된 합성 네트워크(스케일‑프리, 무작위, 작은 세계)에서 다양한 시뮬레이션 데이터를 생성하고, 각 알고리즘에 동일한 데이터셋을 투입해 재현성(다중 실행 간 MCC 표준편차)과 정확도(평균 MCC)를 측정한다. 두 번째는 실제 대장균 유전자 모듈(리보솜, 대사, 스트레스 반응)에서 마이크로어레이/RNA‑seq 데이터를 사용해 동일한 비교를 수행한다. 결과는 모든 방법이 네트워크 밀도가 높을수록, 그리고 샘플 수가 제한적일수록 MCC가 급격히 감소하고 변동성이 커지는 경향을 보였다. 특히 KELLER는 시간‑연속 데이터를 전제로 하여 샘플 부족 시 과적합 현상이 두드러졌으며, ARACNE와 CLR는 상호정보 기반 임계값 설정에 민감해 동일 데이터에 대해 서로 다른 네트워크를 출력했다. 반면 RegnANN은 MLP 학습 과정에서 교차검증과 조기 종료를 적용해 과적합을 억제하고, 가중치 초기화와 학습률 변동을 여러 번 시도함으로써 평균 MCC가 0.62 ± 0.07(합성) 및 0.58 ± 0.09(대장균)로 가장 안정적인 성능을 기록했다. 또한 RegnANN은 네트워크 구조가 복잡해질수록 (예: 피드백 루프가 다중인 경우) 다른 알고리즘보다 낮은 오류율을 유지했으며, 이는 비선형 관계를 모델링하는 MLP의 장점으로 해석된다. 그러나 RegnANN도 완전한 안정성을 확보하지는 못했으며, 학습 데이터의 품질과 하이퍼파라미터 튜닝에 따라 성능 편차가 존재한다. 논문은 이러한 변동성을 정량화하기 위해 부트스트랩 재샘플링과 민감도 분석을 제안하고, 향후 연구에서는 앙상블 학습과 베이지안 최적화를 통해 변동성을 최소화할 방안을 모색한다.

초록

상세 요약

📜 논문 원문 (영문)