도메인 불변성을 위한 의료 비전‑언어 사전학습 강화
초록
본 논문은 의료 영상‑텍스트 모델이 스캐너 종류·기관·보고서 양식 등에서 발생하는 도메인 변이에 강인하도록 설계된 사전학습 프레임워크 Robust‑MMR을 제안한다. 비대칭 교란‑인식 마스킹, 도메인 일관성 정규화, 모달리티 회복 제약을 결합해 도메인 불변 표현을 학습하고, VQA‑RAD, SLAKE, VQA‑2019, MELINDA, ROCO 등 다중 벤치마크에서 기존 최첨단 대비 3‑4%p 이상의 정확도 향상을 입증한다.
상세 분석
Robust‑MMR은 기존의 멀티모달 마스크 재구성(MMR) 방식을 확장하여 ‘강인성 목표’를 사전학습 단계에 직접 삽입한다. 첫 번째 핵심 구성요소인 비대칭 교란‑인식 마스킹(asymmetric perturbation‑aware masking)은 이미지와 텍스트 각각에 서로 다른 마스크 비율을 적용하고, 교란(노이즈, 해상도 저하, 텍스트 변형) 시뮬레이션을 사전 단계에서 수행한다. 이를 통해 모델은 마스크된 영역이 교란에 의해 변형될 가능성을 인식하고, 복원 과정에서 교란에 대한 내성을 학습한다. 두 번째 구성요소인 도메인 일관성 정규화(domain‑consistency regularization)는 동일 환자·동일 케이스에 대해 서로 다른 도메인(예: 서로 다른 병원·스캐너)에서 추출된 이미지‑텍스트 쌍을 동시에 입력하고, 두 모달리티의 임베딩 차이를 최소화하는 L2‑거리 혹은 대조 손실을 적용한다. 이렇게 하면 도메인 변동이 있더라도 공유된 의미 공간에 매핑되도록 강제한다. 세 번째인 모달리티 회복 제약(modality‑resilience constraints)은 한 모달리티가 완전히 마스킹될 경우 다른 모달리티만으로도 원본 정보를 복원하도록 하는 교차 재구성 손실을 도입한다. 이는 텍스트가 손실된 상황에서도 이미지만으로 의미를 추론하도록, 반대로 텍스트만으로도 이미지 특징을 보완하도록 학습한다. 전체 학습 목표는
( \mathcal{L}= \mathcal{L}{rec}^{vis}+\mathcal{L}{rec}^{txt}+ \lambda_{dc}\mathcal{L}{dc}+ \lambda{mr}\mathcal{L}_{mr})
의 형태로 구성되며, λ는 각 손실의 중요도를 조절한다.
실험에서는 5개의 공개 의료 비전‑언어 데이터셋을 활용했다. VQA‑RAD, SLAKE, VQA‑2019는 각각 방사선 이미지 기반 질문‑응답 태스크이며, MELINDA는 이미지‑텍스트 분류, ROCO는 이미지‑캡션 검색을 평가한다. 도메인 시프트를 모사하기 위해 이미지에 Gaussian blur, 저해상도, 스캐너‑특정 필터 등을 적용하고, 텍스트에는 약어 치환·문장 재배열을 가했다. Robust‑MMR은 교란 전후 VQA‑RAD 정확도가 69.1%→75.6%(+6.5%)로 크게 상승했으며, 교차 도메인 평가에서 78.9%의 최고 정확도를 기록해 기존 최고치보다 3.8%p 앞섰다. MELINDA에서는 교차 도메인 정확도가 70.3%→75.2%로 향상됐고, ROCO 검색에서는 평균 순위 저하가 16→4.1로 감소해 회복력이 크게 개선되었다.
추가적인 Ablation Study에서는 각 구성요소를 제거했을 때 성능이 평균 2‑3%p 감소함을 확인했으며, 특히 도메인 일관성 정규화가 가장 큰 기여를 함을 보여준다. 또한, 시각화된 재구성 결과와 질의‑응답 예시에서 모델이 교란된 이미지에서도 병변 위치와 종류를 정확히 파악하고, 보고서 스타일이 달라져도 핵심 진단 정보를 유지하는 모습을 확인했다.
이러한 결과는 사전학습 단계에서 강인성을 명시적으로 모델링함으로써, 라벨이 부족한 의료 환경에서도 도메인 변동에 강인한 멀티모달 표현을 획득할 수 있음을 시사한다. 향후 연구에서는 더 다양한 모달리티(예: 임상 메타데이터, 전자건강기록)와 연속적인 도메인 적응 메커니즘을 결합해 실제 병원 배치 시 실시간 적응성을 높이는 방향을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기