실시간 방사선 종양학 결과 라벨링을 위한 자율 LLM 에이전트 RadOncGPT

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RadOncGPT는 GPT‑4o 기반의 자율 에이전트로, 환자 ID와 작업 지시만으로 구조화된 인구통계·치료 계획 데이터와 비구조화된 임상 노트·영상·병리 보고서를 자동으로 검색·통합하여 방사선 종양학에서의 ORN(턱 골괴사) 및 암 재발 여부를 라벨링한다. 2단계 평가에서 구조화 데이터 추출 정확도 100%·방사선 코스 카운트 99.4%를 달성했으며, 복합 임상 결과 라벨링에서는 사후 검증 후 평균 정확도가 95% 이상에 이른다.

상세 분석

본 논문은 방사선 종양학 레지스트리 구축의 병목인 수작업 라벨링을 LLM 기반 자동화로 대체하려는 시도로, 두 단계의 평가 프레임워크를 설계했다. 1단계인 QA 티어에서는 환자 인구통계(성별, 인종, 민족)와 치료 코스(ID, ICD 코드, 방사선 유형) 등 순수 구조화 필드를 전용 함수 호출을 통해 추출한다. 여기서 500명 중 100% 일치, 코스 카운트 99.4% 정확도를 기록했으며, 이는 함수 기반 데이터 접근이 기존 RAG 방식보다 효율적임을 입증한다. 2단계에서는 ORN 판정(헤드·넥 암)과 전립선·헤드·넥 암 재발 감지를 위해 구조화 데이터와 비구조화 임상 노트, 방사선·병리 보고서를 다중 턴 대화형 LLM이 통합한다. 특히 동일한 재발 감지 프롬프트를 두 질환군에 적용해 일반화 능력을 검증했으며, 사전 정확도(84.5~92.7%)가 사후 전문가 중재 후 95% 이상으로 상승했다. 오류 분석에서는 48건 중 30건이 기존 레지스트리의 라벨링 오류였음이 밝혀져, LLM이 라벨러이자 감사자 역할을 동시에 수행할 수 있음을 시사한다. 시스템 설계 측면에서, 내부 Aria·Epic DB와 PubMed·ClinicalTrials.gov 등 외부 API를 함수화해 LLM이 호출하도록 한 점이 핵심이다. 함수 granularity를 높여 토큰 사용을 최소화하고, 필요 시 역순 프루닝으로 컨텍스트 제한을 관리한다. 비용 측면에서는 GPT‑4o의 토큰당 $2.50 비용이 현재 낮아 대규모 실시간 라벨링이 경제적으로 가능함을 강조한다. 전체적으로 데이터 접근·프롬프트 설계·오류 adjudication이라는 세 축을 체계화함으로써, 방사선 종양학 데이터 레지스트리의 정확도와 규모를 동시에 확장할 수 있는 실용적 로드맵을 제공한다.

실시간 방사선 종양학 결과 라벨링을 위한 자율 LLM 에이전트 RadOncGPT

초록

상세 분석

댓글 및 학술 토론

의견 남기기