Negation 이해를 위한 비대칭 다중선택 학습
초록
본 논문은 기존 의료 영상‑언어 모델이 부정 표현을 제대로 파악하지 못하는 문제를, 대조 학습을 배제하고 이미지‑텍스트와 텍스트‑이미지 양방향 다중선택(MCQ) 학습으로 전환함으로써 해결한다. 조건부 의미 비교를 구현하는 Bi‑MCQ 프레임워크와 방향별 Cross‑Attention 융합 모듈을 도입해 긍정·부정·혼합 프롬프트를 동시에 학습한다. ChestXray14, Open‑I, CheXpert, PadChest에서 평가한 결과, CARZero 제로샷 대비 AUC 0.47·PNC 0.08 상승, InfoNCE 기반 파인튜닝 대비 긍·부정 격차 0.12 감소를 달성하였다.
상세 분석
이 연구는 의료 영상‑언어 모델(VLM)이 “no evidence of pneumonia”와 같은 부정 문장을 긍정 문장과 거의 동일한 임베딩으로 매핑하는 근본적인 한계를 짚는다. 기존의 InfoNCE 기반 대조 학습은 이미지와 텍스트 간 전역 유사도만을 극대화하고, 부정이라는 의미 전환 연산자를 별도의 신호로 인식하지 못한다. 특히 다중 라벨 환경에서 정상·무병 이미지가 다수를 차지하면, “no …”와 같은 일반 부정 프롬프트가 쉽게 양성 정렬을 형성해 학습 신호가 약해진다. 이를 극복하기 위해 저자는 두 방향의 MCQ 과제를 동시에 최적화하는 Bi‑MCQ 방식을 제안한다. 이미지‑텍스트(I2T) MCQ에서는 하나의 이미지에 대해 긍정, 부정, 혼합 프롬프트를 후보로 제시하고, 정답 프롬프트만을 선택하도록 교차 엔트로피 손실을 적용한다. 텍스트‑이미지(T2I) MCQ에서는 하나의 텍스트에 대해 배치 내 이미지들을 후보로 두고, 의미적으로 일치하는 이미지만을 정답으로 지정한다. 이렇게 하면 부정 문장이 단순히 “쉬운 양성”으로 남지 않고, 반드시 의미적 차이를 해소해야만 정답을 맞출 수 있다.
조건부 의미 비교를 구현하기 위해 저자는 방향별 Cross‑Attention Fusion 모듈을 설계한다. I2T에서는 이미지 전역 임베딩을 Query, 텍스트 전역·토큰 임베딩을 Key·Value로 사용해 이미지가 텍스트 후보를 평가하도록 하고, T2I에서는 텍스트 전역 임베딩을 Query, 이미지 전역·지역 임베딩을 Key·Value로 매핑한다. 이러한 비대칭 어텐션은 각 방향이 요구하는 시각·언어 단서의 차이를 반영하면서, 양방향 간 표현 간섭을 최소화한다.
실험에서는 ChestXray14를 파인튜닝 데이터로 사용하고, Open‑I, CheXpert, PadChest를 교차‑도메인 테스트셋으로 활용했다. 주요 평가지표는 부정 이해를 측정하는 AUC와 긍정·부정 통합 평가인 PNC이다. Bi‑MCQ는 CARZero 제로샷 대비 평균 AUC 0.47 상승, PNC 0.08 절대 상승을 기록했으며, 기존 InfoNCE 파인튜닝 대비 긍정·부정 격차를 0.12 줄였다. 또한 ablation 실험을 통해 양방향 MCQ와 Cross‑Attention 모듈 각각이 성능 향상에 기여함을 확인했다.
이 논문의 핵심 기여는 (1) 대조 학습을 배제하고 의미 비교 기반의 학습 목표를 정의한 점, (2) 이미지‑텍스트와 텍스트‑이미지 양방향 MCQ를 통한 부정 신호 강화, (3) 방향별 Cross‑Attention 융합으로 비대칭 정보 흐름을 최적화한 점이다. 이러한 설계는 의료 영상뿐 아니라 일반 VLM에서도 부정·조건부 의미 이해를 향상시킬 수 있는 일반화 가능한 접근법으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기