페타바이트 규모 의료 영상 데이터 레이크의 실시간 비식별화 고성능 솔루션

초록

본 논문은 클라우드 기반 분산 컴퓨팅과 기존 의료 영상 비식별화 도구를 결합해, 페타바이트 수준의 이미지 데이터 레이크를 온디맨드로 빠르게 비식별화하는 시스템을 제안한다. 서버리스 아키텍처, 컨테이너화된 파이프라인, 자동 스케일링을 활용해 데이터 전송·처리·검증 과정을 최적화하고, 보안·감사 로그와 연계된 거버넌스 프레임워크를 제공한다. 실험 결과, 기존 온프레미스 방식 대비 10배 이상 속도 향상과 비용 효율성을 입증하였다.

상세 요약

이 연구는 의료 영상 연구에 필요한 대규모 데이터 접근성을 향상시키기 위해, 기존의 온프레미스 클라이언트‑서버 모델이 갖는 확장성 한계를 클라우드 네이티브 아키텍처로 극복하고자 한다. 핵심 기술 스택은 다음과 같다. 첫째, DICOM 표준을 지원하는 오픈소스 비식별화 엔진(예: dcm4che, pydicom)을 컨테이너 이미지로 패키징하고, Kubernetes 기반의 워크플로 엔진(Airflow, Argo) 위에 배치한다. 이를 통해 작업 단위가 파드(pod) 형태로 독립 실행되며, 필요 시 자동으로 수평 확장이 가능하다. 둘째, 데이터 저장소는 객체 스토리지(S3 호환)와 메타데이터 관리용 NoSQL(DB)로 구성해, 대용량 파일 입출력(I/O) 병목을 최소화한다. 데이터는 원본 버킷에 그대로 보관하고, 비식별화된 결과는 별도 버킷에 복제·버전 관리한다. 셋째, 서버리스 함수(Lambda, Cloud Functions)를 이용해 이벤트 기반 트리거를 구현한다. 새로운 DICOM 파일이 업로드되면 즉시 비식별화 파이프라인이 호출되어, 파일을 스트리밍 방식으로 읽고 PHI(개인식별정보)를 마스크하거나 제거한다. 네트워크 전송량을 최소화하기 위해, 파일을 청크 단위로 처리하고, 병렬 스트리밍 압축을 적용한다. 다섯째, 보안 측면에서는 IAM 정책과 VPC 엔드포인트를 활용해 스토리지 접근을 최소 권한 원칙(least‑privilege)으로 제한하고, 모든 작업 로그를 중앙화된 SIEM 시스템에 전송한다. 감사 로그는 비식별화 전·후 해시값, 작업 ID, 사용자 ID, 실행 시간 등을 포함해 규제 준수(FDA, GDPR, HIPAA)를 지원한다. 여섯째, 비용 최적화를 위해 스팟 인스턴스와 프리엠티드 인스턴스 혼합 사용, 작업량에 따라 자동으로 인스턴스 유형을 전환하는 정책을 적용한다. 실험에서는 1 PB 규모의 DICOM 데이터셋(약 2억 파일)을 대상으로, 평균 파일당 0.8 초의 처리 속도를 달성했으며, 이는 기존 온프레미스 클러스터(평균 8 초) 대비 10배 가량 빠른 것이다. 또한, 비용은 동일 작업량 대비 65 % 절감되었다. 마지막으로, 시스템은 멀티‑테넌시를 지원해 서로 다른 연구팀이 동일 데이터 레이크에 접근하되, 각 팀별 비식별화 정책을 독립적으로 적용할 수 있다. 이러한 설계는 향후 AI 모델 학습에 필요한 대규모 라벨링·전처리 파이프라인과도 자연스럽게 연계될 수 있다.

초록

상세 요약

📜 논문 원문 (영문)