하이라이트를 지우는 가상 렌더링 기술
초록
UnReflectAnything은 단일 RGB 이미지에서 반사성 하이라이트를 제거하는 AI 프레임워크입니다. 실제 정답 데이터가 부족한 문제를 해결하기 위해, 단안 카메라로 추정한 3D 지오메트리와 물리 기반 렌더링을 통해 가상의 하이라이트를 합성하여 학습 데이터를 생성합니다. 고정된 비전 트랜스포머(DINOv3)로 특징을 추출하고, 하이라이트 영역을 탐지한 후 토큰 수준의 인페인팅 모듈이 손상된 패치 특징을 복원하여 최종 무반사 확산 이미지를 생성합니다. 이 방법은 복잡한 조명과 비람베르트면을 가진 자연 및 수술 영상에서도 강력한 일반화 성능을 보여줍니다.
상세 분석
UnReflectAnything의 핵심 기술적 혁신은 ‘지도 학습 없이 지도 학습을 가능하게 하는’ 가상 하이라이트 합성 파이프라인에 있습니다. 기존 방법들은 정확한 확산-반사 쌍 데이터의 부족으로 인해 성능에 한계가 있었으나, 본 연구에서는 단일 RGB 이미지에서 추정한 깊이와 법선 맵을 기반으로 3D 점군을 복원합니다. 여기에 무작위로 샘플링된 광원 위치와 프레넬 효과를 고려한 Blinn-Phong 쉐이딩 모델을 적용하여 물리적으로 그럴듯한 합성 하이라이트 맵을 생성합니다. 이 합성 데이터는 원본 이미지에 합성되어 네트워크가 하이라이트 영역을 ‘문제 영역’으로 인식하고, 원본 이미지(합성 하이라이트가 추가되기 전)를 ‘정답’으로 학습할 수 있는 자기지도 학습 환경을 조성합니다.
모델 아키텍처는 사전 학습된 지식의 효율적 활용에 초점을 맞춥니다. 고정된 DINOv3-Large 인코더는 강력한 시맨틱 특징을 추출하는 동시에 계산 부담을 줄입니다. 하이라이트 예측 헤드는 이러한 다중 스케일 특징을 입력받아 연속적인 하이라이트 확률 맵을 생성하는 경량 디코더입니다. 가장 독창적인 부분은 ‘토큰-레벨 인페인팅 모듈’입니다. 하이라이트로 식별된 패치의 특징 토큰을 마스킹한 후, 주변 가시 토큰의 평균 prior와 학습 가능한 마스크 토큰을 결합한 ‘시드 토큰’으로 대체합니다. 이 시드 토큰 시퀀스는 소형 비전 트랜스포머 블록을 통해 주변 문맥을 참조하여 복원되며, 이 과정은 특징 공간에서 직접 이루어져 공간적 일관성과 의미적 정확성을 동시에 보존합니다.
학습 전략은 ‘믿을 수 있는 영역’에 대한 신중한 감독으로 설계되었습니다. 원본 이미지에 이미 존재하는 ‘데이터셋 하이라이트’(예: 수술 영상의 포화된 반사) 영역은 신뢰할 수 없는 정답으로 간주되어 감독 손실 계산에서 제외됩니다. 네트워크는 합성 하이라이트 영역과 데이터셋 하이라이트 영역 모두를 인페인팅해야 하지만, 손실은 오직 합성 하이라이트가 추가된 영역(즉, 원본이 깨끗했던 영역)에 대해서만 계산됩니다. 이는 모델이 하이라이트 영역을 채우도록 강제하면서도 잘못된 신호로 학습하는 것을 방지하는 교묘한 전략입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기