일상 환자 데이터를 활용한 임상시험 지원 방안
초록
본 연구는 ACO(Accountable Care Organization) 내에서 류마티스 관절염(RA) 임상시험을 위한 환자 코호트를 자동으로 구축하는 방법을 검증한다. 3개의 EHR 시스템에서 3,500명의 환자 기록을 추출·표준화하고, 임상 용어 매핑·전문가 계층화를 통해 질환 및 약물 정보를 그룹화하였다. HIPAA 기준에 맞춘 자동 탈식별 알고리즘은 99% 수준의 민감도·특이도를 보였으며, RA 유병률은 전체 인구의 4%로 확인되었다. 결과는 기존의 수작업 기반 코호트 구축보다 비용·시간 효율성을 크게 향상시킬 수 있음을 시사한다.
상세 분석
이 논문은 ACO 환경에서 전자건강기록(EHR) 데이터를 활용해 임상시험 대상자를 자동으로 선별하는 전 과정을 상세히 제시한다. 첫 단계는 세 종류의 상용 EHR(Practice Fusion, GE Centricity, drchrono)에서 원문 임상 문서를 비정형 형태로 추출하고, 이를 HL7 CCD, API, 프린트 방식 등 다양한 인터페이스를 통해 수집한다. 추출된 데이터는 ICD‑9/10, SNOMED CT, RxNorm, LOINC, HL7 표준 등 국제·국내 표준 코드 체계로 매핑되며, UMLS 메타시소러스와 CCS2 등 전문가 정의 계층 구조에 의해 고수준 진단·약물 그룹으로 집계된다. 특히 진단 코드는 ICD‑9와 ICD‑10을 병행 사용해 과거·현재 진단을 모두 포괄하고, CCS와 UMLS를 이용해 동의어 및 세부 코드를 하나의 클러스터로 통합한다.
탈식별 단계에서는 Medal사의 자체 DEID 엔진이 PHI(Protected Health Information)를 자동 식별·제거한다. 1,224개의 PHI 토큰에 대한 인간 검증 결과, 민감도 98.7%, 특이도 99.1%를 기록했으며, 이는 네 개 병원의 IRB가 요구한 기준을 상회한다. 탈식별된 데이터는 제한된 데이터 세트(LDS) 형태로 보관돼 원본과 연결 가능한 메타데이터를 별도 관리함으로써 재동의 절차를 지원한다.
코호트 정의는 RA 표준 케이스 정의에 기반한다. SNOMED 코드 156471009, 69896004 등 RA와 직접 연관된 개념을 포함하고, ICD‑10‑CM ‘Rheumatoid Arthritis with rheumatoid factor’ 등 281개의 진단 코드를 활용해 환자를 선별한다. 또한 ‘근골격계·결합조직 질환’ 카테고리와 같은 상위 그룹을 이용해 RA와 연관된 동반질환(예: 당뇨, 심혈관계 질환) 환자를 포괄적으로 파악한다.
결과적으로 전체 3,500명 중 평균 연령 53세, 성비 52:48인 인구에서 RA 유병률은 약 4%로 나타났으며, 당뇨(61%)와 순환기계 질환(47%)이 높은 비율을 차지했다. 이는 기존 문헌에서 보고된 RA 유병률(<1%)보다 높은 수치이며, ACO 내 다양한 진료기관에서 데이터 수집이 가능함을 보여준다.
핵심 인사이트는 다음과 같다. ① 표준 코드 매핑과 전문가 계층화를 결합하면 이질적인 EHR 데이터에서도 일관된 질환·약물 프로파일을 도출할 수 있다. ② 자동 탈식별 기술이 높은 정확도를 유지하면서도 대규모 데이터를 신속히 공유하도록 지원한다. ③ 기존의 수작업 기반 코호트 구축에 비해 비용·시간 효율성이 크게 향상되며, 특히 소규모 진료기관이 많은 ACO 환경에서 임상시험 전 단계(사이트 선정·예비 코호트 구축)를 가속화한다. ④ 제한된 데이터 세트(LDS) 접근 방식은 환자 재동의 및 추적을 가능하게 하여, 실제 임상시험 진행 시 환자 모집 단계에서도 활용 가능성을 높인다.
댓글 및 학술 토론
Loading comments...
의견 남기기