실시간 방사선 종양학 결과 라벨링을 위한 자율 LLM 에이전트 RadOncGPT
초록
RadOncGPT는 GPT‑4o 기반의 자율 에이전트로, 환자 ID와 작업 지시만으로 구조화된 인구통계·치료 계획 데이터와 비구조화된 임상 노트·영상·병리 보고서를 자동으로 검색·통합하여 방사선 종양학에서의 ORN(턱 골괴사) 및 암 재발 여부를 라벨링한다. 2단계 평가에서 구조화 데이터 추출 정확도 100%·방사선 코스 카운트 99.4%를 달성했으며, 복합 임상 결과 라벨링에서는 사후 검증 후 평균 정확도가 95% 이상에 이른다.
상세 분석
본 논문은 방사선 종양학 레지스트리 구축의 병목인 수작업 라벨링을 LLM 기반 자동화로 대체하려는 시도로, 두 단계의 평가 프레임워크를 설계했다. 1단계인 QA 티어에서는 환자 인구통계(성별, 인종, 민족)와 치료 코스(ID, ICD 코드, 방사선 유형) 등 순수 구조화 필드를 전용 함수 호출을 통해 추출한다. 여기서 500명 중 100% 일치, 코스 카운트 99.4% 정확도를 기록했으며, 이는 함수 기반 데이터 접근이 기존 RAG 방식보다 효율적임을 입증한다. 2단계에서는 ORN 판정(헤드·넥 암)과 전립선·헤드·넥 암 재발 감지를 위해 구조화 데이터와 비구조화 임상 노트, 방사선·병리 보고서를 다중 턴 대화형 LLM이 통합한다. 특히 동일한 재발 감지 프롬프트를 두 질환군에 적용해 일반화 능력을 검증했으며, 사전 정확도(84.5~92.7%)가 사후 전문가 중재 후 95% 이상으로 상승했다. 오류 분석에서는 48건 중 30건이 기존 레지스트리의 라벨링 오류였음이 밝혀져, LLM이 라벨러이자 감사자 역할을 동시에 수행할 수 있음을 시사한다. 시스템 설계 측면에서, 내부 Aria·Epic DB와 PubMed·ClinicalTrials.gov 등 외부 API를 함수화해 LLM이 호출하도록 한 점이 핵심이다. 함수 granularity를 높여 토큰 사용을 최소화하고, 필요 시 역순 프루닝으로 컨텍스트 제한을 관리한다. 비용 측면에서는 GPT‑4o의 토큰당 $2.50 비용이 현재 낮아 대규모 실시간 라벨링이 경제적으로 가능함을 강조한다. 전체적으로 데이터 접근·프롬프트 설계·오류 adjudication이라는 세 축을 체계화함으로써, 방사선 종양학 데이터 레지스트리의 정확도와 규모를 동시에 확장할 수 있는 실용적 로드맵을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기