의료 비전 언어 모델의 원뿔 현상과 모달리티 격차 조절

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 비전‑언어 모델(VLM)에서 나타나는 “원뿔 현상”과 모달리티 격차를 사후 단계에서 단일 하이퍼파라미터 λ로 조절하는 경량 메커니즘을 제안한다. 의료 데이터셋에 적용해 본 결과, 과도한 격차를 완화하면 성능이 전반적으로 향상되지만, 완전한 격차 제거가 최적은 아니며 작업마다 적절한 중간 수준의 정렬이 필요함을 확인했다.

상세 분석

이 연구는 VLM의 임베딩이 비선형 활성화와 대조 학습 손실에 의해 고도로 집중된 “원뿔” 영역에 매핑되는 현상을 정량화하고, 이미지와 텍스트 임베딩 사이의 평균 중심 차이(Δ)로 정의되는 모달리티 격차를 측정한다. 논문은 먼저 임베딩을 ℓ2 정규화한 뒤, Δ의 크기 ‖Δ‖₂를 격차의 프록시로 사용한다. 기존 연구와 달리 사전 학습 파라미터를 고정한 채, 임베딩을 Δ 방향으로 λ/2만큼 이동시킨 후 다시 정규화하는 간단한 변환 t′ = (t + λ/2·Δ)/‖t + λ/2·Δ‖₂, v′ = (v – λ/2·Δ)/‖v – λ/2·Δ‖₂ 를 도입한다. λ∈

의료 비전 언어 모델의 원뿔 현상과 모달리티 격차 조절

초록

상세 분석

댓글 및 학술 토론

의견 남기기