스페인어 임상 텍스트에서 약물 사용 및 맥락 정보 탐지를 위한 앙상블 딥러닝
초록
본 논문은 스페인어 임상 기록에서 독성 물질 사용 트리거와 그에 대한 속성(방법, 양, 빈도 등)을 자동으로 식별하기 위해 BETO 기반 BERT‑CRF 모델을 다중 출력 형태로 설계하고, 다양한 학습 전략과 문장 필터링을 결합한 앙상블을 제안한다. 전체 데이터셋을 활용한 최종 모델은 트리거 탐지에서 F1 0.94·정밀도 0.97, 속성 탐지에서 F1 0.91을 달성하였다.
상세 분석
본 연구는 저자원이면서 도메인 특화된 스페인어 임상 텍스트에서 독성 물질 사용 정보를 추출하는 과제인 ToxHabits Shared Task에 대응하기 위해 다중 출력(Bi‑output) 앙상블 구조를 설계하였다. 핵심 인코더로는 스페인어 전용 사전학습 모델인 BETO(base)를 사용했으며, 각각 트리거와 속성(Argument) 태스크에 대해 별도의 선형 레이어와 CRF 디코더를 연결하였다. CRF는 BIO 라벨링의 전이 제약을 학습함으로써 토큰 수준 예측의 일관성을 보장한다.
데이터가 제한적이고 클래스 불균형이 심각한 상황을 완화하기 위해 저자는 세 가지 학습 전략을 도입하였다. 첫째, 라벨 가중치 손실(Label‑Weighted Loss)로 소수 클래스에 높은 손실 가중치를 부여해 학습 편향을 감소시켰다. 둘째, 데이터 오버샘플링(Data Oversampling)으로 트리거·속성 라벨이 포함된 문장을 복제해 클래스 비율을 조정하였다. 셋째, 가중치 랜덤 샘플링(Weighted Random Sampling)으로 학습 배치에 트리거·속성 문장이 더 많이 포함되도록 확률을 조정했다. 이러한 전략을 적용한 데이터셋을 5‑fold 교차 검증 방식으로 다중 서브셋으로 분할하고, 각 서브셋마다 모델을 학습시켜 총 6~19개의 개별 모델을 생성하였다.
또한, 입력 전처리 단계에서 문장 필터링을 수행한다. BETO 기반 이진 분류기를 사전 학습시켜 각 문장이 트리거·속성 정보를 포함하는지 여부를 판단하고, 부정문은 전체 파이프라인에서 제외한다. 이 과정은 불필요한 연산을 줄이고 정밀도를 크게 향상시켰으며, 실험 결과 필터링 적용 시 F1 점수가 0.01~0.02 상승하였다.
앙상블 단계에서는 각 모델의 토큰 레벨 예측을 다수결 투표 방식으로 결합한다. 다중 모델이 서로 다른 학습 전략과 데이터 샘플을 기반으로 하기 때문에, 오류가 상쇄되고 전반적인 일반화 능력이 강화된다. 결과적으로 트리거 탐지에서는 정밀도 0.97, 재현율 0.92, F1 0.94를, 속성 탐지에서는 정밀도 0.91, 재현율 0.90, F1 0.91을 기록하였다.
한계점으로는 현재 LLM(예: GPT‑4, LLaMA) 기반 접근을 사용하지 않았으며, 문맥적 이해와 장거리 의존성 처리에서 잠재적 성능 향상 여지가 남아 있다. 또한, CRF 디코더는 라벨 전이 제약을 단순히 선형 형태로 모델링하므로, 복잡한 논리 관계(예: 트리거와 속성 간의 상호 의존성)를 완전히 포착하지 못한다는 점이 있다. 향후 연구에서는 멀티태스크 학습에 트랜스포머 디코더를 결합하거나, 프롬프트 기반 LLM을 활용해 도메인 적응을 시도함으로써 성능을 더욱 끌어올릴 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기