ELM: 암군 분류를 위한 혼합형 언어 모델 앙상블
초록
ELM은 소형 인코더‑전용 모델 6개와 대형 언어 모델(LLM)을 결합한 하이브리드 시스템으로, 병리 보고서의 암군 분류 정확도를 0.94의 가중 정밀·재현율로 끌어올렸다. 5‑대‑6 합의가 안 될 경우 LLM이 최종 판단을 내리며, 실제 브리티시 컬럼비아 암 레지스트리에서 연간 900인시를 절감했다.
상세 분석
본 논문은 인구 기반 암 레지스트리(PBCR)에서 병리 보고서를 자동으로 암군(tumor group)으로 분류하는 문제를 다룬다. 기존 규칙 기반 시스템(eMaRC)은 복잡한 임상 언어와 구조적 변이성을 처리하지 못해 40 % 이상의 보고서에 대해 라벨을 부여하지 못하고, 라벨이 있더라도 높은 오류율을 보여 전수 검토가 필요했다.
ELM은 두 단계의 계층적 접근을 채택한다. 첫 단계는 6개의 소형 인코더‑전용 모델(각 512 토큰 입력)로, 보고서 상단 512 토큰을 분석하는 3개와 하단 512 토큰을 분석하는 3개로 구성된다. 이 모델들은 동일한 19개 암군에 대해 개별적으로 fine‑tuning 되었으며, 투표 방식으로 최종 예측을 만든다. 투표 기준은 최소 5표(6개 중 5표) 합의를 요구하고, 사전에 정의된 ‘hard’ 그룹(예: 피부암, 자궁경부암 등)은 무조건 LLM으로 이관한다.
두 번째 단계는 대형 언어 모델인 Mistral Nemo Instruct‑2407(12 B 파라미터)을 활용한다. LLM은 “전문 병리학 어시스턴트” 역할을 부여받은 프롬프트를 통해, 인코더‑전용 모델이 제시한 후보 그룹(보통 2‑4개) 중 하나를 선택하도록 제한한다. 또한 JSON 형식으로 이유를 함께 출력하도록 강제해 설명 가능성을 확보한다. 프롬프트 설계는 암군 간 미묘한 구분(예: 백혈병 vs 림프종, 흑색종 vs 비흑색종 피부암 등)을 명시적으로 안내한다.
실험 결과는 2,058건의 테스트 세트(19개 암군)에서 가중 정밀·재현율 0.94, F1 = 0.94를 기록했으며, 순수 인코더‑전용 앙상블(0.91) 및 기존 규칙 기반 시스템보다 통계적으로 유의미하게 우수했다(p < 0.001). 특히 어려운 카테고리인 백혈병(F1 0.76→0.88), 림프종(F1 0.76→0.89), 피부암(F1 0.44→0.58)에서 큰 개선을 보였다.
운영 측면에서는 전체 보고서 중 약 15‑20 %만 LLM에 전달되므로, 평균 처리 시간은 0.85 초(인코더‑전용 0.6 초 + LLM 2‑3 초)로 순수 LLM 기반 대비 3‑4배 빠르다. 브리티시 컬럼비아 암 레지스트리 도입 후, 수작업 검토가 60‑70 % 감소해 연간 약 900인시(≈30 초/보고서) 절감 효과를 확인했다.
핵심 인사이트는 (1) 보고서의 구조적 특성을 활용한 상·하단 분할이 토큰 제한을 극복하면서 핵심 정보를 포착한다는 점, (2) 고신뢰 합의를 통한 ‘easy’ 케이스 자동 처리와 ‘hard’ 케이스를 LLM에 위임하는 계층적 설계가 정확도와 비용 효율성을 동시에 달성한다는 점, (3) 프롬프트에 후보 그룹을 제한하고 출력 형식을 강제함으로써 LLM의 hallucination을 최소화하고 설명 가능성을 확보한다는 점이다. 이러한 설계는 의료 NLP에서 대형 모델의 비용을 억제하면서도 높은 성능을 유지하고자 하는 다른 도메인에도 적용 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기