임상 질의와 판단을 결합한 의료 대형 언어 모델 Baichuan M3
초록
Baichuan M3는 의료 분야에 특화된 대형 언어 모델로, 수동적인 질문‑답변을 넘어 능동적인 임상 질의와 장기 추론을 수행한다. 모델은 프로액티브 정보 획득, 통합된 진단 추론, 그리고 사실 검증 기반의 환각 억제 메커니즘을 핵심 역량으로 삼는다. 세 단계의 학습 파이프라인(Task‑RL, Offline Policy Distillation, Multi‑Teacher Online Distillation)을 통해 각 역량을 독립적으로 최적화한 뒤 통합한다. 환자 시뮬레이터와 루브릭·팩트 검증 시스템을 활용한 강화학습으로 훈련되었으며, HealthBench‑Hard와 자체 제작 ScanBench에서 기존 최고 수준 모델인 GPT‑5.2를 크게 앞선 성능을 기록한다.
상세 분석
Baichuan M3는 기존 의료 LLM이 직면한 “정보 불확실성 → 환각” 문제를 근본적으로 해결하고자 설계된 시스템이다. 첫 번째 핵심은 임상 현장의 실제 워크플로우를 모델링한 ‘프로액티브 정보 획득’ 단계이다. 이를 위해 저자들은 패시브·인터럽션‑인젝션 두 가지 시뮬레이션 모드를 혼합한 환자 시뮬레이터를 구축하였다. 패시브 모드는 초기 상담 상황을 재현해 모델이 스스로 필요한 증상·병력 등을 질문하도록 유도하고, 인터럽션‑인젝션 모드는 상담 중 환자가 갑작스러운 질문을 던지는 상황을 재현해 모델의 인터럽트 대응 능력을 평가한다. 이러한 설계는 실제 진료에서 흔히 발생하는 정보 누락과 환자 주도형 대화 흐름을 학습 데이터에 자연스럽게 삽입한다는 점에서 의의가 크다.
두 번째 핵심은 ‘장기 추론’이다. 저자들은 복합적인 임상 판단을 여러 단계(질의 → 검사 → 진단)로 분할하고, 각 단계마다 별도 보상 신호를 제공하는 Segmented Pipeline Reinforcement Learning을 도입하였다. 이는 전통적인 RL에서 최종 결과에만 보상이 집중되는 ‘credit‑assignment problem’를 완화하고, 각 대화 턴이 최종 진단 성공에 기여한 정도를 정밀하게 학습하게 만든다. 또한 Dynamic Rubric Evolution을 통해 루브릭 기준을 점진적으로 강화함으로써 모델이 단순 문맥 흐름 유지가 아니라 임상 가이드라인에 부합하는 논리적 추론을 수행하도록 유도한다.
세 번째 핵심은 ‘환각 억제’를 위한 Fact‑Aware Verification Pipeline이다. 루브릭 검증기와 별도 Fact 검증기로 구성된 이 시스템은 LLM 기반 판단과 외부 검색 기반 사실 검증을 병행한다. 먼저 모델 출력은 원자적 주장(Atomic Claim)으로 분해되며, 이를 위해 저자들은 GPT‑5 기반의 추출 모델을 8 B 경량 모델로 증류하였다. 이후 각 주장에 대해 검색‑증강 검증 에이전트가 최신 임상 가이드라인·논문을 실시간으로 조회해 ‘지원’, ‘반박’, ‘불확실’ 라벨을 부여한다. 검증 비용을 낮추기 위해 Level‑1(정확히 동일 문자열)과 Level‑2(의미적 유사도) 캐시를 도입했으며, 캐시 적중률이 80 %에 달해 온라인 RL 루프에 큰 지연을 초래하지 않는다.
학습 파이프라인은 세 단계로 구분된다. Stage 1인 Task‑RL에서는 각각의 역량(임상 질의, 일반 추론, 의료 지식 등)에 특화된 전문가 모델을 독립적으로 강화학습시켜 강력한 도메인‑특화 정책을 만든다. Stage 2인 Offline Policy Distillation에서는 이들 전문가 정책을 하나의 학생 모델에 압축한다(Reverse KL 기반). 마지막 Stage 3인 Multi‑Teacher Online Policy Distillation(MOPD)에서는 학생 모델을 지속적으로 온라인 RL에 노출시켜 실제 시뮬레이터와 검증 시스템으로부터 얻은 보상을 실시간으로 반영한다. 이러한 단계적 접근은 다중 과제 학습 시 흔히 발생하는 그래디언트 간섭을 최소화하고, 각 역량을 최적화한 뒤 통합함으로써 전체 성능을 극대화한다.
실험 결과는 세 가지 벤치마크에서 기존 최고 수준 모델을 크게 앞선다. HealthBench‑Hard에서 44.4점(전 모델 대비 약 4 점 상승)을 기록했으며, 자체 제작 ScanBench(임상 질의, 검사, 진단 3축)에서는 각각 74.9, 72.1, 74.4점으로 GPT‑5.2‑High와 전문가 수준을 모두 초월했다. 특히 환각 억제 테스트에서는 Fact‑Aware 검증 파이프라인 덕분에 툴‑프리 상황에서도 높은 사실 일관성을 유지한다.
전반적으로 Baichuan M3는 임상 대화의 ‘질의‑응답’와 ‘추론‑판단’이라는 두 축을 하나의 통합된 정책으로 학습시킨 최초의 의료 LLM 중 하나이며, 프로액티브 대화 관리, 단계별 보상 설계, 외부 지식 기반 사실 검증이라는 세 가지 혁신적 요소를 결합해 의료 AI의 실용성을 크게 높였다.
댓글 및 학술 토론
Loading comments...
의견 남기기