암 진단의 패러다임 전환, EXAONE Path 2.5: 조직과 유전자를 함께 보는 병리학 AI
초록
LG AI 연구진이 개발한 EXAONE Path 2.5는 조직 슬라이드 이미지(WSI)와 유전체(SNP, CNV), 후성유전체(DNA 메틸화), 전사체(RNA-seq) 등 5가지 생물학적 데이터를 통합 학습하는 병리학 기반 모델입니다. 다중 모달 대조 학습, 공간 구조 보존 기술, 도메인 특화 기반 모델을 활용해 단일 이미지 분석의 한계를 넘어, 유전형부터 표현형까지 포괄적인 암 생물학을 반영하는 환자 표현을 생성합니다. 내부 임상 데이터와 공개 벤치마크(Patho-Bench)에서 기존 최고 모델 대비 적은 데이터와 파라미터로 최고 수준의 성능과 적응력을 입증했으며, 차세대 정밀 의학을 위한 통합 분석의 가능성을 제시합니다.
상세 분석
EXAONE Path 2.5의 기술적 혁신은 크게 세 가지 축에서 평가할 수 있습니다. 첫째, Multimodal SigLIP Loss는 기존 CLIP 방식의 단일 양성 쌍 가정의 한계를 극복했습니다. 시그모이드 이진 교차 엔트로피를 사용해 모든 모달리티 쌍을 독립적으로 정렬함으로써, 서로 다른 생물학적 계층(예: 유전 변이와 조직 형태) 간의 복잡한 다대다 관계를 포착할 수 있게 되었습니다. 이는 각 모달리티가 상호 보완적인 정보를 인코딩하도록 유도하여 표현의 풍부함을 극대화합니다.
둘째, **Fragment-Aware Rotary Position Encoding(F-RoPE)**은 Whole-Slide Image(WSI) 분석의 핵심 난제인 공간 정보 손실 문제를 정교하게 해결합니다. 단순한 패치 집합이 아닌, 실제 조직 조각(Fragment) 단위로 공간적 토폴로지를 보존하며, RoPE 기반 위치 인코딩과 조각 인식 어텐션 마스크를 결합했습니다. 이를 통해 동일 슬라이드 내 다른 부위(예: 다른 등급의 종양, 간질)의 지역적 패턴을 구분하고, 이 패턴이 하위 분자 상태를 반영할 수 있도록 했습니다. 이는 형태학적 분석의 해상도를 획기적으로 높인 기술입니다.
셋째, 도메인 특화 내부 기반 모델의 전략적 활용이 주목할 만합니다. WSI와 RNA-seq 각각에 대해 대규모 데이터로 사전 학습된 독립적인 파운데이션 모델을 ‘고정된(frozen)’ 특징 추출기로 사용함으로써, 다중 모달 정렬 학습의 안정성과 생물학적 타당성을 확보했습니다. 이는 제한된 다중 모달 학습 데이터로도 강력한 표현을 학습할 수 있는 ‘데이터 효율성’의 비결이며, 계산 병리학과 생정보학이라는 두 도메인의 전문성을 효과적으로 융합한 사례입니다.
결과적으로, 이 모델은 거대 언어 모델(LLM) 식의 단순한 규모 확장이 아닌, 생물학적 인사이트에 기반한 체계적인 아키텍처 설계가 어떻게 소규모 모델로도 우수한 일반화 성능(특히 이질적인 임상 데이터셋에서)을 달성할 수 있는지를 보여줍니다. 이는 의료 AI가 ‘블랙박스’에서 벗어나, 이해 가능하고 신뢰할 수 있는 진단 도구로 발전하기 위한 중요한 디딤돌이 될 것입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기