내시경 영상 매칭을 위한 자기지도 대조 임베딩 적응
초록
본 논문은 내시경 영상 쌍 사이의 픽셀‑레벨 대응을 고정밀로 찾기 위해, 사전학습된 DINOv2 비전 트랜스포머에 추가 변환 레이어를 삽입하고, 새로운 시점 합성으로 만든 가짜 정답을 이용해 대조 학습을 수행하는 자기지도 학습 파이프라인을 제안한다. 생성된 임베딩은 코사인 유사도 임계값만으로 직접 매칭이 가능하도록 설계되었으며, SCARED 데이터셋에서 기존 최첨단 방법들을 능가하는 매칭 정확도와 낮은 에피폴라 오류를 기록한다.
상세 분석
이 연구는 내시경 영상 매칭이라는 특수 의료 도메인에서 발생하는 조명 변화, 비라미안 반사, 조직 변형 등 전통적인 특징점 검출기가 취약한 문제를 해결하고자 한다. 핵심 아이디어는 두 단계로 구성된다. 첫 번째는 DINOv2라는 대규모 사전학습 비전 트랜스포머를 백본으로 사용해 풍부한 의미적 피처를 추출하고, 여기에 별도의 변환 트랜스포머 레이어(Ψ)를 추가해 의미 중심의 임베딩을 공간적 정밀도가 높은 매칭 전용 임베딩으로 변환한다. 이 변환 레이어는 완전 연결이 아닌 자체‑어텐션 구조를 유지하면서, 입력 피처 맵 전체에 걸쳐 전역적인 컨텍스트를 고려해 로컬 디스크리미네이션을 강화한다.
두 번째 단계는 자기지도 학습이다. 기존의 지도 학습은 수작업으로 만든 대응점이 필요하지만, 내시경 데이터는 라벨링 비용이 매우 높다. 저자들은 DINOv2와 동일한 백본에서 추출한 의미 피처를 DPT(밀집 예측 트랜스포머)로 디코딩해 단일 이미지에 대한 깊이 맵을 얻는다. 이 깊이와 알려진 카메라 내·외부 파라미터를 이용해 소스 이미지의 각 픽셀을 3D 공간으로 역투영하고, 임의의 상대 자세 변환을 적용해 목표 뷰를 합성한다. 이렇게 생성된 ‘새로운 시점’ 이미지와 원본 이미지 사이의 픽셀 매핑은 정확한 기하학적 관계를 보장하므로, 가짜 정답(픽셀‑픽셀 대응)으로 활용할 수 있다.
생성된 대응쌍을 기반으로 트리플렛 마이닝을 수행한다. 앵커와 양성은 합성된 대응쌍이며, 부정은 동일 이미지 내에서 거리 기준으로 가장 멀리 떨어진 픽셀을 선택한다. 이때 대조 손실은 임베딩 간 코사인 유사도를 최대화·최소화하도록 설계돼, 변환 레이어가 학습 과정에서 의미 피처를 매칭 친화적인 공간으로 재배치한다. 학습 후에는 두 이미지의 변환된 임베딩 행렬 간 코사인 유사도 행렬을 직접 계산해 argmax 로 대응을 추출하고, 0.95 이상의 유사도 임계값을 적용해 후보를 필터링한다.
추가적으로, 매칭된 패치에 대해 위상 상관(phase correlation)을 이용한 서브픽셀 정밀도 보정이 적용된다. 이는 푸리에 도메인에서 상관 피크를 찾아 미세한 변위(Δu, Δv)를 추정하고, 픽셀 좌표에 반영함으로써 에피폴라 기하 오류를 크게 감소시킨다.
실험에서는 SCARED 데이터셋(다양한 장기와 시점이 포함된 내시경 영상)에서 기존 SIFT, SURF, SuperGlue, LoFTR 등과 비교했으며, 매칭 정밀도(Precision)와 평균 에피폴라 거리에서 유의미하게 우수한 결과를 보였다. 특히, 변환 레이어 없이 순수 DINOv2를 사용했을 때보다 매칭 정확도가 12% 이상 상승했으며, 실시간 처리 요구를 충족할 수 있는 연산량을 유지했다.
이 논문의 주요 기여는 (1) 의미 중심 백본을 매칭 전용 임베딩으로 변환하는 경량 트랜스포머 적응 모듈, (2) 깊이 추정과 카메라 변환을 활용한 novel‑view synthesis 기반 자기지도 학습 프레임워크, (3) 대조 학습과 서브픽셀 정밀 보정을 결합한 전체 파이프라인이다. 이러한 설계는 라벨이 부족한 의료 영상 도메인에서 고성능 매칭을 가능하게 하며, 향후 실시간 AR 수술 지원, 3D 재구성, 로봇 카메라 트래킹 등에 직접 적용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기