포르투갈어 임상 NER 벤치마크: 최신 BERT와 대형 언어 모델 비교

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 포르투갈어 임상 기록에서 개체명 인식을 수행하기 위해 최신 BERT 기반 모델(BioBERTpt, BERTimbau, ModernBERT, mmBERT)과 대형 언어 모델(GPT‑5, Gemini‑2.5)을 비교하였다. 공개 SemClinBr와 사설 유방암 데이터셋을 사용했으며, 클래스 불균형을 완화하기 위해 반복적 층화, 가중 손실, 오버샘플링을 적용하였다. mmBERT‑base가 전체 테스트에서 가장 높은 micro F1 = 0.76을 기록했으며, 반복적 층화가 성능 향상에 크게 기여함을 확인하였다.

상세 분석

이 논문은 포르투갈어 임상 텍스트에 특화된 NER 모델의 현주소를 체계적으로 정량화한다는 점에서 의미가 크다. 먼저 두 개의 데이터셋을 선정했는데, 하나는 1,000건의 다양한 진료 기록을 포함한 공개 SemClinBr이며, 다른 하나는 500건의 유방암 환자 방문 기록으로 구성된 비공개 데이터이다. 두 데이터셋 모두 10~15개의 임상 개념을 라벨링했으며, 특히 비공개 데이터는 종양 수용체, 유전자 변이, 전이 부위 등 고도 전문 용어를 포함한다는 점에서 모델의 도메인 적합성을 시험한다.

모델군은 크게 두 축으로 나뉜다. 첫 번째는 포르투갈어 혹은 다국어에 사전 학습된 BERT 변형들이다. BioBERTpt‑all은 임상 텍스트와 생물학 논문을 혼합해 2 M 문서로 파인튜닝했으며, BERTimbau는 2.68 B 토큰 규모의 포르투갈어 코퍼스로 학습된 대형 모델이다. ModernBERT는 최신 아키텍처 최적화(로터리 포지셔널 임베딩, 플래시 어텐션 등)를 적용했으며, mmBERT은 다국어 학습 단계에서 저자원 언어 비중을 동적으로 조절해 포르투갈어 표현력을 강화했다. 두 번째 축은 GPT‑5와 Gemini‑2.5 같은 최신 LLM을 few‑shot 프롬프트 방식으로 활용한 것이다.

학습 설정은 모든 BERT 모델에 동일한 하이퍼파라미터(learning rate = 5e‑5, batch = 10, gradient accumulation = 5, max seq = 512)를 적용했으며, 조기 종료(patience = 5)와 binary cross‑entropy 손실을 기본으로 했다. 클래스 불균형 문제를 해결하기 위해 세 가지 전략을 실험했다. (1) 단순 랜덤 분할 vs. 반복적 다중 라벨 층화(Stratified Multilabel) – 후자는 희소 라벨의 분포를 보존해 검증/테스트 셋에서 대표성을 높인다. (2) 가중 손실 – 클래스별 가중치를 N_not / N_present 비율로 정의했으며, 매우 작은 가중치가 학습을 방해하는 경우 최소값을 1.0으로 고정했다. (3) 오버샘플링 – 희소 라벨 샘플을 복제해 평균 라벨 빈도와 맞추었다.

실험 결과, mmBERT‑base가 두 데이터셋 모두에서 최고 성능을 보였으며, 특히 SemClinBr에서 micro F1 = 0.7646, macro F1 = 0.7139를 기록했다. 이는 같은 모델의 작은 버전(mmBERT‑small)보다 현저히 높으며, ModernBERT‑base와 BERTimbau 등 다른 베이스라인을 크게 앞선다. LLM군은 전반적으로 낮은 성능을 보였는데, GPT‑5의 ‘low’, ‘medium’ 추론 수준을 올릴수록 F1가 약 0.03~0.05 상승했지만, 토큰 사용량·시간·비용이 급증한다(예: medium 수준에서 115 s, 10,508 토큰, $84/1000 응답). 따라서 실시간 임상 환경에서는 비용·지연 측면에서 비현실적이다.

불균형 처리 실험에서는 반복적 층화가 가장 큰 효과를 냈다. SemClinBr에서는 단순 랜덤 분할 시 micro F1 ≈ 0.69, 층화 적용 시 0.76으로 10%p 상승했다. 비공개 유방암 데이터에서는 층화와 가중 손실을 결합했을 때 최적 성능을 달성했으며, 이는 라벨 간 상관관계가 강한 의료 데이터 특성에 기인한다. 오버샘플링은 일부 라벨에만 미미한 개선을 보였고, 가중 손실의 최소값 조정이 없을 경우 희소 라벨 학습이 거의 이루어지지 않는 현상이 관찰되었다.

전반적으로 이 논문은 포르투갈어 임상 NER에서 다국어 대형 모델(mmBERT)이 현존 가장 강력한 솔루션임을 입증하고, 데이터 분할 단계에서 라벨 균형을 확보하는 것이 모델 성능을 좌우한다는 실용적 교훈을 제공한다. 또한, LLM을 프롬프트 기반으로 활용하는 접근은 아직 비용·성능 측면에서 제한적이며, 로컬에서 구동 가능한 BERT 변형이 실제 의료 현장에 더 적합함을 강조한다.

포르투갈어 임상 NER 벤치마크: 최신 BERT와 대형 언어 모델 비교

초록

상세 분석

댓글 및 학술 토론

의견 남기기