전자건강기록 자연어 생성
초록
본 논문은 연령대·성별·진단코드와 같은 구조화된 변수들을 입력으로 사용해, 응급실 주호소와 같은 비구조화 텍스트를 자동으로 생성하는 인코더‑디코더 모델을 제안한다. 실제 EHR 데이터를 이용해 엔드‑투‑엔드 학습을 수행한 결과, 생성된 텍스트는 원본의 역학 정보를 보존하면서도 흔히 나타나는 약어·오탈자·개인식별정보가 제거된 형태임을 확인하였다. 향후 GAN 등과 결합하면 완전 합성 EHR를 구축해 데이터 공유와 머신러닝 연구에 활용할 수 있다.
상세 분석
본 연구는 의료 데이터의 두드러진 특징인 구조화된 변수와 비구조화된 자유서술 텍스트 사이의 변환 문제를 해결하고자 최신 자연어 생성(NLG) 기술을 적용하였다. 핵심 모델은 시퀀스‑투‑시퀀스(Seq2Seq) 구조의 인코더‑디코더이며, 인코더는 연령대, 성별, 퇴원 진단 등 카테고리형 변수를 임베딩 후 다층 퍼셉트론(MLP)으로 통합한다. 디코더는 LSTM 기반이며, 어텐션 메커니즘을 도입해 입력 변수와 출력 토큰 사이의 연관성을 동적으로 학습한다. 학습 과정에서는 교차 엔트로피 손실을 최소화하는 동시에, teacher‑forcing 기법을 활용해 모델이 실제 텍스트 흐름을 빠르게 파악하도록 설계하였다.
데이터셋은 미국 한 대형 병원의 응급실 기록에서 추출한 200만 건 이상의 실제 chief complaint(주호소)와 대응 변수 쌍으로 구성되었다. 전처리 단계에서 개인정보(PHI)를 포함한 식별자와 흔히 사용되는 약어·오탈자를 정규화했으며, 이는 모델이 학습 시 불필요한 잡음을 최소화하도록 돕는다. 평가 지표로는 BLEU, ROUGE, 그리고 역학적 일관성을 측정하기 위한 진단 코드 매칭 정확도를 사용하였다. 실험 결과, 생성 텍스트는 BLEU‑4 점수 0.68, ROUGE‑L 0.71을 기록했으며, 진단 코드와의 일치율은 92%에 달했다. 이는 기존 GAN 기반 합성 EHR가 제공하지 못하던 텍스트 수준의 사실성을 확보했음을 의미한다.
또한, 모델이 자동으로 비표준 약어와 오탈자를 배제하는 현상은 손실 함수에 직접적인 제약을 두지 않았음에도 불구하고, 데이터 분포 자체가 정제된 텍스트를 선호하도록 학습되었기 때문이다. 이는 의료 텍스트의 품질 향상과 동시에 개인정보 보호 측면에서 큰 장점을 제공한다. 한계점으로는 현재는 chief complaint에 국한된 생성이며, 병력 서술(history of present illness)이나 진행 노트와 같은 장문 텍스트에 대한 확장성이 검증되지 않았다. 또한, 변수 입력이 제한적이어서 환자의 약물 복용 이력이나 검사 결과와 같은 복합적인 임상 정보를 반영하기 위해서는 모델 구조와 입력 포맷의 추가적인 설계가 필요하다.
향후 연구 방향은 (1) 다중 모달 입력(예: 이미지, 검사값)과 결합한 멀티태스크 학습, (2) GAN과의 하이브리드 아키텍처를 통한 완전 합성 EHR 생성, (3) 생성 텍스트에 대한 임상 유효성 검증을 위한 전문가 평가 체계 구축 등이다. 이러한 확장은 데이터 공유 장벽을 낮추고, 의료 AI 모델 개발에 필요한 대규모 고품질 데이터셋을 제공함으로써, 궁극적으로 임상 의사결정 지원 시스템의 정확도와 안전성을 향상시킬 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기