임상시험 모집에 비구조화 서술과 정보 융합의 필요성

초록

본 논문은 전자건강기록(EHR)에서 구조화된 데이터만으로는 만성 림프구성 백혈병(CLL)과 전립선암 임상시험의 적격성 기준을 충분히 판단할 수 없으며, 의사의 서술형 진료 기록인 비구조화 텍스트와 구조화 데이터의 통합이 필수적임을 실증적으로 보여준다. 특히 시간적 제약이 있는 기준을 해결하려면 텍스트 내 사건의 시점 추출과 구조화 데이터와의 연계가 필요하다.

상세 분석

이 연구는 두 가지 암 종류(CLL, 전립선암)의 임상시험 적격성 기준을 대상으로, 구조화 데이터와 비구조화 임상 서술을 각각 단독으로 적용했을 때와 통합했을 때의 차이를 정량적으로 평가하였다. 먼저, 구조화 데이터는 실험실 검사값, 처방 약물, 진단 코드 등 정형화된 항목에 한정돼 있어 환자의 질병 진행 단계, 치료 반응, 부작용 기록 등 복합적인 임상 상황을 포착하기 어렵다. 반면, 비구조화 텍스트는 의사가 직접 기술한 ‘진행성 질환’, ‘재발 가능성’, ‘치료 효과 감소’와 같은 서술적 정보를 담고 있어, 구조화 데이터가 놓치는 미세한 차이를 포착한다.

연구팀은 자연어 처리(NLP) 파이프라인을 구축해 엔티티 인식, 관계 추출, 그리고 특히 시간 표현 인식(temporal tagging)과 사건 간 관계를 모델링하는 Temporal Reasoning 모듈을 적용하였다. 이를 통해 “지난 6개월 내에 치료 반응이 감소했다”와 같은 문장을 정량적 기준(예: ‘최근 3개월 내 PSA 상승’)과 매핑할 수 있었다.

실험 결과, CLL 시험의 59%, 전립선암 시험의 77% 적격성 기준이 비구조화 텍스트 없이는 해결되지 않았다. 특히 ‘과거 치료 기록’, ‘특정 기간 내 증상 악화’, ‘동시 발생 질환’ 등 시간적 제약이 있는 기준은 구조화 데이터만으로는 불가능했으며, 텍스트 내 사건 시점과 구조화 데이터의 날짜 정보를 결합해야만 정확히 판단할 수 있었다.

또한, 정보 융합 과정에서 발생하는 데이터 정합성 문제(예: 동일 사건이 서로 다른 소스에 중복 기록)와 불확실성(의사의 서술이 모호하거나 부정확함)도 논의되었다. 연구진은 이러한 문제를 해결하기 위해 신뢰도 가중치 기반의 통합 스코어링 방식을 제안했으며, 이는 최종 적격성 판단의 정확도를 12%p 향상시켰다.

결론적으로, 본 논문은 임상시험 모집 단계에서 비구조화 서술과 구조화 데이터의 통합이 단순 보조가 아니라 필수적이며, 특히 시간적 제약이 포함된 기준을 다룰 때 고도화된 텍스트 마이닝과 시계열 추론 기술이 반드시 필요함을 입증한다. 이는 향후 자동화된 환자 매칭 시스템 설계 시, 비구조화 데이터 처리 역량을 핵심 모듈로 포함시켜야 함을 시사한다.