다중 에이전트 기반 의료 진단 프레임워크 MedChat
초록
MedChat은 안과 영상(망막 사진) 분석에 특화된 비전 모델과 여러 역할별 LLM 에이전트를 결합하고, 이를 감독하는 디렉터 에이전트가 최종 보고서를 종합하는 다중‑에이전트 시스템이다. 시각 모델이 제공하는 녹내장 확률과 컵‑디스크 비율을 핵심 프롬프트로 변환하고, 안과 전문의, 검안사, 약사 등 역할별 LLM이 각각의 관점에서 서브 리포트를 작성한다. 디렉터 에이전트가 이를 통합해 일관성·신뢰성을 높인 최종 진단 보고서를 생성한다. 플랫폼은 PDF 다운로드와 Q&A 인터페이스를 제공해 임상 검토와 교육에 활용할 수 있다.
상세 분석
본 논문은 기존 단일 LLM 기반 의료 영상 보고 시스템이 갖는 ‘환각(hallucination)’과 전문성 부족 문제를 다중‑에이전트 구조로 해결하고자 한다. 핵심 설계는 세 단계로 나뉜다. 첫째, Swin‑V2 기반 녹내장 분류기와 SegFormer 기반 해부학적 구조(optic disc, optic cup) 세그멘테이션 모델이 각각 확률값과 픽셀 마스크를 출력한다. 여기서 얻은 확률은 0‑0.2, 0.2‑0.5, 0.5‑0.9, 0.9‑1.0 구간으로 구분돼 ‘no glaucoma’, ‘possible glaucoma’ 등 네 단계의 언어적 등급으로 변환된다. 둘째, 이 확률과 컵‑디스크 비율(CDR)을 자연어로 서술한 뒤, 임상 메모가 있으면 함께 결합해 ‘코어 프롬프트’를 만든다. 이 프롬프트는 모든 역할‑에이전트에게 동일하게 제공된다. 셋째, GPT‑4.1을 이용해 진단 상황에 적합한 역할(안과 전문의, 검안사, 약사, 녹내장 전문의 등)을 자동 추출하고, 각 역할마다 별도 LLM 인스턴스를 생성한다. 역할‑에이전트는 “당신은 {역할}이다”라는 지시문과 함께 코어 프롬프트를 받아, 자신의 전문 영역에 한정된 관찰·추천을 서술한다. 이렇게 생성된 서브 리포트는 중복을 최소화하고, 다양한 임상 관점을 포괄한다. 마지막으로, 또 다른 GPT‑4.1 인스턴스인 디렉터 에이전트가 모든 서브 리포트를 입력받아 합의점과 작은 모순을 조정하고, 일관된 톤의 최종 보고서를 작성한다. 디렉터는 원본 모델명(‘Network A/B’)을 언급하지 않으며, 보고서에 직접적인 출처 표기를 배제해 임상 문서와 유사한 형태를 만든다.
이 구조적 장점은 크게 세 가지로 정리된다. ① 환각 억제: 시각 모델이 제공하는 정량적 수치(CDR, 확률)를 프롬프트에 명시함으로써 LLM이 근거 없는 추론을 할 여지를 줄인다. ② 전문성 강화: 역할‑에이전트가 각각의 도메인 지식에 초점을 맞추어 서술하므로, 단일 LLM이 전체를 포괄하려 할 때 발생하는 얕은 추론을 보완한다. ③ 투명성·검증 가능성: 각 역할별 서브 리포트가 별도로 저장되며, 디렉터가 이를 종합하는 과정이 명시적이므로, 사용자는 필요 시 개별 의견을 검토·재질문할 수 있다.
또한, 시스템은 모듈식 설계라서 비전 모델 교체(예: OCT 이미지용 3D CNN), 새로운 역할 추가, 혹은 파인튜닝된 의료 특화 LLM로 교체가 용이하다. 플랫폼 구현 측면에서는 백엔드(Python)와 프론트엔드(React)로 구성된 웹 인터페이스를 제공한다. 사용자는 이미지와 임상 메모를 업로드하고 ‘Send to LLM’ 버튼을 눌러 보고서를 생성한다. 생성된 보고서는 PDF로 다운로드 가능하고, 챗봇 형태의 Q&A 인터페이스를 통해 보고서 내용에 대한 추가 질의응답이 가능하도록 설계되었다.
전체적으로 MedChat은 기존 단일‑LLM 기반 CAD 시스템이 갖는 신뢰성·해석성 한계를 다중‑에이전트 협업 메커니즘으로 보완하고, 안과뿐 아니라 다른 영상 기반 진단 분야에도 확장 가능한 프레임워크를 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기