양방향 LSTM‑CRF를 이용한 임상 개념 추출

본 논문은 2010년 i2b2/VA 임상 기록 챌린지 데이터셋을 대상으로, 사전 학습된 일반 워드 임베딩(GloVe, Word2Vec)을 초기화한 양방향 LSTM‑CRF 모델을 적용하여 치료, 검사, 질병 등 세 가지 개념을 자동으로 식별·분류한다. 손 handcrafted feature 없이도 최신 방법들을 능가하거나 근접한 F1 점수를 달성했으며, 도메인‑특화 자원을 최소화한 효율적인 접근법을 제시한다.

저자: Raghavendra Chalapathy, Ehsan Zare Borzeshi, Massimo Piccardi

본 논문은 임상 기록에서 치료(treatment), 검사(test), 질병(problem) 등 사전 정의된 개념을 자동으로 식별하고 분류하는 작업을 다룬다. 기존 연구들은 규칙 기반 시스템, UMLS와 같은 의료 온톨로지를 활용한 사전 매칭, 그리고 CRF·SVM·Maximum Entropy와 같은 전통적인 머신러닝 모델에 의존했으며, 이들 방법은 높은 정밀도는 보이지만 복잡한 피처 엔지니어링과 도메인 지식이 필수적이라는 한계를 가지고 있었다. 이러한 문제점을 극복하고자, 저자들은 ‘양방향 LSTM‑CRF’라는 딥러닝 기반 엔드‑투‑엔드 모델을 제안한다. **모델 설계** 입력 문장은 토큰화된 후 각 토큰을 50‒500 차원의 워드 임베딩 벡터로 매핑한다. 임베딩은 두 가지 경로로 제공된다. 첫째, 사전 학습된 GloVe와 Word2Vec 임베딩을 사용해 일반적인 의미 정보를 전달한다. 둘째, 임베딩이 존재하지 않는 약 25%의 도메인‑특화 토큰(약어, 알파벳·숫자 혼합 등)은 무작위 초기화한다. 이렇게 얻은 토큰 시퀀스는 양방향 LSTM에 입력된다. 양방향 LSTM은 정방향(→)과 역방향(←) 두 개의 LSTM을 각각 실행해, 각 시점 t에서 h_t^→와 h_t^←를 얻고 이를 연결해 h_t =

양방향 LSTM‑CRF를 이용한 임상 개념 추출

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기