뇌 전역 유전자 발현 분석을 위한 MATLAB 툴박스

뇌 전역 유전자 발현 분석을 위한 MATLAB 툴박스

초록

본 논문은 Allen Brain Atlas에서 제공하는 3차원 마우스 뇌 전역 유전자 발현 데이터를 활용해, 마우스 뇌 영역별 마커 유전자 탐색, 전역 공동 발현 패턴 통계 분석, 세포 유형 특이 마이크로어레이와의 상관 지도 생성 등을 수행할 수 있는 MATLAB 기반 툴박스를 소개한다.

상세 분석

이 연구는 4,000여 개 유전자의 3차원 볼륨 데이터를 200 µm 해상도로 정렬한 voxel‑by‑gene 매트릭스를 기반으로 한다. 매트릭스는 49,742개의 voxel(전체 뇌)과 4,117개의 유전자를 행·열로 갖으며, Allen Reference Atlas(ARA)의 계층적(40개의 피질 영역, 209개의 피하 영역) 및 비계층적(좌반구 12 + 94 세부 영역) 주석 정보를 동시에 제공한다. 이러한 고차원·고해상도 데이터는 전통적인 통계 방법으로는 처리하기 어려운 차원을 가진다. 저자들은 이를 해결하기 위해 MATLAB 환경에서 작동하는 ‘Brain Gene Expression Analysis Toolbox’를 설계했으며, 주요 기능은 다음과 같다.

  1. 마커 유전자 선정: 각 뇌 영역에 대해 평균 발현값과 전체 평균 대비 비율을 이용한 specificity score를 계산하고, 통계적 유의성을 검정한다. 이를 통해 특정 영역에 특이적으로 발현되는 유전자를 자동으로 추출한다.
  2. 전역 공동 발현 분석: 두 유전자의 voxel‑wise 발현값 간 피어슨 상관계수를 구하고, 전체 유전자 쌍에 대한 상관 행렬을 만든다. 이후 상관값의 분포를 무작위 시뮬레이션(permute)과 비교해 의미 있는 공동 발현 네트워크를 도출한다.
  3. 세포 유형 상관 지도: 외부에서 확보한 세포 유형별 마이크로어레이 데이터(예: 신경세포, 아교세포, 면역세포)를 입력으로 받아, 각 세포 유형 프로파일과 voxel‑wise 발현값 간 상관을 계산한다. 결과는 뇌 전체에 걸친 상관 지도 형태로 시각화되어, 특정 세포 유형이 풍부한 영역을 직관적으로 확인할 수 있다.
  4. 시각화 및 통계 도구: ARA의 3D 구조에 맞춰 voxel 데이터를 색상 맵으로 표현하고, 히트맵, 클러스터링 덴드로그램, PCA/ICA 등 차원 축소 기법을 제공한다. 또한, 다중 비교 보정(FDR)과 부트스트랩을 통한 신뢰구간 추정 기능이 내장돼 있다.

기술적으로는 MATLAB의 행렬 연산 최적화를 활용해 대규모 매트릭스 연산을 효율적으로 수행한다. 예를 들어, 공동 발현 상관 행렬은 메모리 절약을 위해 sparse matrix 형태로 저장되며, 병렬 연산(parfor)을 통해 계산 시간을 크게 단축한다. 또한, 툴박스는 사용자 정의 파라미터(예: voxel 해상도, 상관 임계값, 마커 유전자 최소 발현량)를 쉽게 조정할 수 있게 설계돼 있어, 다양한 연구 질문에 유연하게 적용 가능하다.

하지만 몇 가지 제한점도 존재한다. 첫째, 200 µm 해상도는 세포 수준의 미세 구조를 포착하기에 부족할 수 있어, 미세 영역(예: 특정 층)의 마커 유전자 탐색에 한계가 있다. 둘째, in‑situ hybridization 데이터는 정량적 정확도가 마이크로어레이에 비해 낮을 수 있어, 절대 발현량보다 상대적 패턴 해석에 초점을 맞춰야 한다. 셋째, 현재 툴박스는 마우스 데이터에 최적화돼 있어, 인간 뇌 데이터(예: Human Brain Atlas)로의 확장은 별도의 매핑 및 주석 변환 작업이 필요하다.

전반적으로 이 툴박스는 대규모 뇌 전역 유전자 발현 데이터를 체계적으로 탐색하고, 해부학적 구조와 유전적 패턴을 연결하는 강력한 분석 플랫폼을 제공한다. 향후 고해상도 단일세포 RNA‑seq 데이터와의 통합, 클라우드 기반 병렬 처리, 그리고 머신러닝 기반 예측 모델과의 연계가 이루어진다면, 뇌 기능·질환 연구에 더욱 혁신적인 도구가 될 것으로 기대된다.