오프라인 의료 에이전트 지능 Meissa: 경량 멀티모달 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Meissa는 4 B 파라미터 규모의 경량 멀티모달 의료 LLM으로, 전략 선택과 실행을 동시에 학습한다. 통합된 상태‑행동‑관찰 형식과 3단계 난이도 기반 교사 지도, 전·후방 궤적 학습을 통해 40 K개의 고품질 에이전트 궤적을 증류한다. 결과적으로 13개 의료 벤치마크에서 16개 설정 중 10개를 앞서며, 파라미터는 25배 적고 지연은 22배 감소한다.

상세 분석

Meissa의 핵심 혁신은 “통합 궤적 모델링”과 “계층적 교사 지도”에 있다. 저자는 모든 의료 에이전트 상호작용을 상태‑행동‑관찰(state‑action‑observation) 삼중구조로 정형화함으로써, 영상‑텍스트 결합, 도구 호출, 다중 전문가 협업, 임상 시뮬레이션 등 이질적인 환경을 하나의 모델이 학습하도록 설계했다. 이 형식은 각 단계에서 모델이 현재 대화 맥락(s_t)과 이전 관찰(o_t)을 조건으로 다음 행동(a_t)을 예측하도록 하여, 전통적인 행동 복제와 달리 인과적 의사결정 흐름을 보존한다.

전략 선택을 가르치는 “3‑tier 계층적 지도”는 학생 모델(M_S)의 자체 오류를 교사 신호로 활용한다. Tier 1에서는 학생이 이미 정답을 맞춘 샘플을 직접 추론 궤적으로 사용해, 파라미터 지식만으로 해결 가능한 경우를 학습한다. Tier 2에서는 학생이 틀린 샘플을 더 강력한 교사 모델(M_T)에게 전달해, 도구 없이도 해결 가능한 고난이도 추론을 학습한다. 최종 Tier 3에서는 학생과 교사 모두 해결하지 못한 잔여 샘플을 네 가지 에이전트 환경(연속 도구 호출, 이미지‑텍스트 교차 사고, 다중 전문가 토론, 임상 시뮬레이션)에서 전면적인 다단계 상호작용 궤적으로 변환한다. 이렇게 단계별로 난이도를 구분함으로써, 모델은 “언제 직접 답변하고 언제 외부 도구를 호출할지”를 자동으로 라우팅하는 정책을 내재한다.

또한 “전‑후방 지도”는 탐색적 전방 궤적과 후방 최적화된 역방향 궤적을 동시에 제공한다. 전방 궤적은 실제 관찰에 기반한 비정형 행동 시퀀스를 기록하고, 후방 궤적은 동일 행동 순서를 뒤에서 재해석해 최적의 설명과 보상을 부여한다. 이 쌍은 행동 복제의 불안정성을 완화하고, 다양한 환경에서 일관된 실행 정책을 학습하게 만든다.

학습 파이프라인은 약 40 K개의 궤적(직접 8.2 K, 강화 9.8 K, 에이전트 23.9 K)으로 구성되며, 8 GPU A6000에서 12시간 내에 완료된다. 모델은 Qwen‑VL‑4B를 초기화 기반으로 사용했으며, 파라미터는 4 B에 불과하지만 Gemini‑3‑flash와 같은 최첨단 프론티어 모델을 능가한다. 평가에서는 13개 의료 벤치마크(방사선, 병리, 임상 추론)를 포괄적으로 테스트했으며, 10/16 설정에서 동등하거나 우수한 성능을 보였다. 특히 전략 선택 정확도는 거의 오라클 수준에 근접했고, 전체 추론 지연은 클라우드 API 기반 시스템 대비 22배 감소했다.

Meissa는 오프라인 배포가 필수인 병원 환경에서 개인정보 보호와 비용 효율성을 동시에 만족시키는 실용적인 솔루션으로, 멀티모달 의료 AI의 새로운 패러다임을 제시한다.

오프라인 의료 에이전트 지능 Meissa: 경량 멀티모달 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기