AI 기반 임상시험 프로토콜 정보 추출, 정확도·효율성 혁신
초록
임상시험 프로토콜의 복잡성과 빈번한 수정으로 인한 업무 부담을 줄이고자, 저자들은 Retrieval‑Augmented Generation(RAG) 기반 AI 시스템을 개발하였다. 23개의 공개 프로토콜에 대해 RAG 방식이 독립형 LLM(정교한 프롬프트 사용)보다 87.8% 대비 62.6% 높은 정확도를 보였으며, 13명의 임상시험 코디네이터(CRC)를 대상으로 한 시뮬레이션 작업에서는 AI 지원 작업이 40% 이상 빠르게 완료되고 인지적 부담이 감소했다. 전문가 검토는 여전히 필요하지만, 본 연구는 대규모 프로토콜 지능화에 AI 활용 가능성을 제시한다.
상세 분석
본 논문은 임상시험 프로토콜에서 핵심 데이터(예: 연구 목적, 포함·제외 기준, 치료 개입, 일정표 등)를 자동으로 구조화하기 위한 RAG 파이프라인을 설계·평가한다. 첫 단계에서는 PDF 프로토콜을 의미론적 임베딩을 이용해 관리 가능한 청크로 분할하고, 벡터 데이터베이스에 저장한다. 두 번째 단계에서는 도메인‑특화 검색 쿼리를 통해 목표 데이터가 포함된 청크를 정확히 찾아낸다. 세 번째 단계에서는 검색된 청크와 맞춤형 프롬프트를 제공받은 생성 LLM이 JSON 스키마 형태의 구조화된 출력을 생성한다. 특히 일정표(Schedule of Events, SoE)와 같이 복잡한 표 형식은 두 단계(표 검출 → 비전 기반 멀티모달 생성)로 처리해, 기존 텍스트‑중심 추출 방식이 놓치기 쉬운 계층적 관계를 보존한다.
정확도 평가는 “LLM‑as‑a‑judge” 방식을 도입해 인간 전문가와 LLM이 동시에 검증하도록 설계했으며, 이는 라벨링 비용을 크게 절감하면서도 인간 검토와 높은 상관성을 유지한다. 23개의 프로토콜(암, 심혈관, 기타 분야)에서 RAG 기반 시스템은 평균 87.8%의 정확도를 기록했으며, 특히 정보가 문서 전반에 흩어져 있는 경우에 독립형 LLM(62.6%)보다 현저히 우수했다.
운영 효율성 측면에서는 13명의 CRC가 수행한 통제 실험에서 AI 지원 작업이 평균 40% 이상 빠르게 완료되었고, NASA‑TLX 설문을 통한 인지 부하 평가에서 유의미하게 낮은 점수를 받았다. 사용자는 결과물의 추적 가능성(청크 레퍼런스 제공)과 인터페이스의 직관성을 높이 평가했으며, 전반적인 선호도가 90% 이상이었다.
한계점으로는 전문가 감독이 여전히 필수이며, “정답” 라벨링이 주관적일 수 있다는 점을 들었다. 또한, 개인정보 보호와 규제 준수를 위해 시스템이 폐쇄형 환경에서 운영돼야 함을 강조한다. 향후 연구에서는 실제 현장 적용을 통한 장기적인 스타트‑업 시간 감소 효과와, 다국적 다기관 시험에서의 확장성을 검증할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기