SAGE: 해석 가능하고 임상 전이 가능한 병리학 바이오마커 자동 발굴 시스템
초록
SAGE는 대규모 언어 모델과 멀티모달 데이터를 결합한 에이전트 기반 프레임워크로, 문헌 기반 지식 그래프와 이미지‑유전자 연관 분석을 통해 해석 가능한 병리학 바이오마커를 자동으로 생성·검증한다. 블래더암 사례를 통해 생물학적 근거가 명확하고 임상 적용 가능성이 높은 특징을 도출한다.
상세 분석
본 논문은 기존 AI 병리학 모델이 직면한 ‘블랙박스’ 문제를 해결하기 위해, 에이전트 간 역할을 명확히 구분한 구조적 시스템 SAGE를 제안한다. 첫 단계에서는 최신 LLM(GPT‑4o‑mini)을 활용해 1,650개의 논문·교과서를 자동 전처리하고, 신뢰도 0.5 이상인 삼중항을 추출해 41,053개의 노드와 56,338개의 엣지를 가진 도메인 특화 지식 그래프(KG)를 구축한다. KG는 유전자·경로·임상표현형 등 다양한 생물학적 개념을 연결해, 후속 에이전트가 ‘생물학적 연관성’과 ‘임상적 의미’를 동시에 고려하도록 설계되었다.
에이전트 구성은 크게 여섯 단계로 나뉜다. Path Generation 에이전트가 초기 이미지 특징을 정의하고, Ontologist 에이전트가 KG를 탐색해 비직관적 연관성을 발굴한다. Scientist 에이전트는 발견된 연관성을 기반으로 가설을 구체화하고, Hypothesis Expansion 에이전트가 변형·보강된 가설 집합을 만든다. Novelty Critic 에이전트는 기존 문헌과 비교해 학술적 신선도를 평가하며, Feasibility Agent는 데이터 가용성·통계적 검증 가능성을 판단한다. 최종적으로 Coding Agent가 자동으로 R/Python 코드를 생성·실행해 다중 코호트(WSI·RNA‑seq)에서 통계적 연관성을 검증하고, Summary Agent가 결과를 임상 의사에게 친숙한 형태로 요약한다.
핵심 기술적 강점은 (1) 문헌‑구동 KG를 통한 ‘생물학적 근거’ 확보, (2) 에이전트 간 폐쇄형 피드백 루프를 도입해 가설이 반드시 검증 가능하도록 강제, (3) 자동 코드 생성·실행 파이프라인으로 인간 개입 최소화, (4) 블래더암 사례에서 ‘TLS와 연관된 유전자(예: CXCL13, LTB)’와 같은 구체적 이미지 특징을 도출해, 기존 흑색상자 모델이 제공하지 못한 해석 가능성을 제공한다는 점이다.
한계점으로는 KG 구축 시 자동 추출 오류가 여전히 존재하고, KG 품질에 따라 가설 품질이 크게 좌우된다는 점, 그리고 현재는 블래더암에 초점을 맞추어 다른 암종에 대한 일반화 검증이 부족하다는 점을 들 수 있다. 또한 에이전트 간 의사결정 과정이 복잡해 디버깅이 어려울 수 있다. 향후 연구에서는 KG 정밀도 향상을 위한 인간 전문가 피드백 루프와, 다암종 멀티태스크 확장을 통해 임상 적용 범위를 넓히는 것이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기