지역 비전‑언어 모델이 비전 트랜스포머를 능가할 수 있을까 신생아 소생술 사례 연구
초록
본 논문은 시뮬레이션된 신생아 소생술 영상 13.26시간을 대상으로, 로컬 비전‑언어 모델(VLM)과 대형 언어 모델(LLM)의 결합이 기존 감독 학습 기반 TimeSFormer보다 활동 인식 성능을 향상시킬 수 있는지를 평가한다. Zero‑shot 프롬프트 방식과 LoRA 기반 파인튜닝을 비교한 결과, LoRA로 파인튜닝된 로컬 VLM이 F1 0.91을 달성해 TimeSFormer의 0.70을 크게 앞섰다.
상세 분석
이 연구는 신생아 소생술이라는 고감도 의료 현장에서 미세 활동(환기, 자극, 흡입 등)을 정확히 식별하는 문제에 초점을 맞춘다. 기존 3D‑CNN·ViT 기반 접근법은 성능 한계와 데이터 프라이버시 문제를 드러냈으며, 특히 클라우드 기반 모델이 의료 영상의 ‘폭력’ 필터링에 걸리는 점이 실용성을 저해한다. 저자는 이러한 제약을 극복하고자 오픈소스 로컬 VLM(LLaVA‑Next Video, 7 B)와 경량 LLM(Mistral 7B)을 선택해 온‑프레미스 환경에서 실험을 진행한다.
데이터는 10개의 시뮬레이션 세션에서 추출한 3초 길이 클립(25 fps, 768×1024)으로 구성되며, 다중 라벨(환기, 자극, 흡입, 테이블 위 아기) 형태로 어노테이션된다. 라벨 간 상호배제 관계(환기와 흡입은 동시에 불가)와 클래스 불균형을 고려해 가중 이진 교차 엔트로피 손실을 적용한다.
모델링은 크게 다섯 가지 전략으로 나뉜다. (1) 감독 학습 기반 TimeSFormer를 베이스라인으로 사용한다. (2) 제약된 출력 포맷을 갖는 Zero‑Shot Classification(ZSC‑CO)으로 프롬프트에 라벨 의존성을 명시한다. (3) 각 라벨에 대해 Yes/No 질문을 던지는 Zero‑Shot Binary Testing(ZS‑B)이다. (4) VLM이 캡션을 생성하고, 별도 LLM이 그 캡션을 이진 라벨로 판단하는 ZSC‑J 방식이며, 이는 VLM의 환각을 LLM이 억제하도록 설계되었다. (5) 마지막으로 VLM에 분류 헤드를 추가하고, 두 가지 파인튜닝 옵션—헤드만 학습(FT‑LC)과 Cross‑Modal Attention에 LoRA를 삽입한 FT‑C‑LoRA—을 적용했다.
실험 결과, Zero‑Shot 방식은 프롬프트 설계에 따라 환각이 빈번히 발생해 안정적인 성능을 내지 못했다. 특히 ZSC‑CO와 ZS‑B는 F1가 0.45~0.58 수준에 머물렀다. ZSC‑J는 캡션 품질은 높았지만 LLM 판단 단계에서 라벨 간 의존성을 완전히 반영하지 못해 F1 0.66을 기록했다. 반면 FT‑LC는 VLM 백본을 고정하고 헤드만 학습했음에도 macro‑F1 0.84를 달성했으며, 파라미터 효율성도 뛰어났다. LoRA를 도입한 FT‑C‑LoRA는 백본 일부를 미세 조정함으로써 시각적 특징과 텍스트 프롬프트 간의 교차 모달 정합을 강화했고, 최종 F1 0.91이라는 최고 성능을 기록했다. 이는 기존 TimeSFormer(0.70) 대비 30% 이상 향상된 수치이며, 파라미터 증가량이 전체 모델 대비 1% 미만에 불과해 실용적이다.
한계점으로는 시뮬레이션 데이터에 국한돼 실제 임상 영상에 대한 일반화 검증이 부족하고, 라벨 불균형이 심해 소수 라벨(예: 심장 압박)에서는 아직 낮은 재현율을 보인다. 또한 로컬 VLM이 여전히 ‘환각’ 위험을 내포하고 있어, 프롬프트 설계와 LoRA 학습 전략이 필수적이라는 점을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기