멜라노마 면역저항을 깨는 ‘히트앤런’ 전략: LOXL2 일시 억제
초록
본 연구는 전이성 멜라노마 환자의 항‑PD‑1 면역치료 내재 저항성을 설명하기 위해 환자 전사체 데이터를 기반으로 확률적 불린 네트워크(PBN)를 구축하고, 강화학습(RL) 에이전트를 이용해 최적의 다단계 치료 개입을 탐색하였다. SHAP 기반 설명가능 인공지능(XAI) 분석을 통해 LOXL2를 4단계에 걸쳐 일시적으로 억제하는 ‘히트‑앤‑런’ 전략이 저항성 네트워크를 붕괴시키고, 지속적인 약물 투여 없이도 민감한 상태로 전환시킬 수 있음을 제시한다.
상세 분석
이 논문은 전사체 기반 PBN 모델링과 RL, XAI를 결합한 통합 프레임워크를 제시한다. 먼저 Hugo 등(2020)의 GSE78220 데이터를 이용해 28명의 전처치 멜라노마 조직을 ‘반응군’(n=15)과 ‘비반응군’(n=13)으로 구분하고, VST 정규화 후 가우시안 혼합 모델을 통해 각 유전자를 0/1 이진 상태로 변환하였다. 핵심 12유전자는 IPRES 서명 유전자 5종과, 차등발현 및 네트워크 중심성(dynGENIE3) 점수를 종합해 선정하였다. 각 유전자는 최대 4개의 후보 조절자를 갖도록 제한하고, 상호 정보(MI)를 기반으로 4개의 불린 함수와 확률 가중치를 부여해 PBN을 추정하였다.
두 코호트별 PBN은 2^12=4096 상태공간을 갖으며, attractor 분석을 통해 ‘반응군’은 22개의 다중 안정 상태를, ‘비반응군’은 16개의 attractor 중 하나가 50% 이상의 확률 질량을 차지하는 강직한 구조임을 확인했다. 특히 비반응군에서는 T A GLN, ROR2, LOXL2 등 ECM 재구성 관련 유전자가 중심 허브로 재배치되었으며, JUN과 LOXL2 사이에 새로운 마스터‑슬레이브 회로가 형성되었다.
강화학습 단계에서는 gym‑PBN 환경을 이용해 MDP를 정의하고, PPO 알고리즘으로 15‑step 에피소드 내에 저항성 attractor에서 탈출하도록 정책을 학습시켰다. 보상 설계는 저항성 attractor에 -5, 민감성 상태에 +100을 부여해 목표 전이의 중요성을 강조하였다. 학습 결과, ‘Do Nothing’과 단일 유전자 플립(특히 LOXL2, JUN, MAPK3 억제) 조합이 최적 정책으로 도출되었다.
‘히트‑앤‑런’ 전략은 LOXL2를 정확히 4연속 스텝 동안 0으로 고정한 뒤, 이후 에피소드에서는 에이전트가 ‘Do Nothing’ 정책을 유지하도록 설계되었다. 이 경우 시뮬레이션 성공률이 93.45%에 달했으며, 억제 기간이 짧거나 길 경우 성공률이 급격히 감소하는 비단조적 관계가 관찰되었다. 이는 저항성 네트워크가 일시적 교란에 민감하게 반응하지만, 지속적인 억제는 회피 메커니즘을 유도한다는 생물학적 의미를 시사한다.
정책 해석을 위해 SHAP 값을 계산했으며, LOXL2 억제 전후의 특성 중요도 변화를 시각화하였다. 억제 초기에는 JUN‑LOXL2 축의 SHAP 기여도가 급격히 감소하고, 이후 에이전트가 ‘Do Nothing’ 선택을 할 때도 네트워크 자체가 저항성 attractor에서 벗어나 자연스럽게 민감성 상태로 수렴함을 확인했다. 이러한 설명가능성은 임상적 ‘프라이밍’ 전략의 메커니즘을 투명하게 제시한다.
전반적으로 이 연구는 (1) 환자 맞춤형 PBN 구축을 통한 저항성 메커니즘 규명, (2) 강화학습을 이용한 동적, 다단계 치료 설계, (3) SHAP 기반 XAI를 통한 정책 해석이라는 세 축을 결합해, 기존 정적·지속 억제 중심의 접근법을 넘어 일시적 ‘히트‑앤‑런’ 개입이 저항성을 극복할 수 있음을 증명하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기