임의 카메라 움직임을 위한 단안 내시경 4D 재구성

임의 카메라 움직임을 위한 단안 내시경 4D 재구성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 스테레오 깊이 정보나 정확한 구조‑from‑motion 없이도 단안 내시경 영상에서 큰 카메라 움직임을 포함한 변형 조직을 고품질 4D(시간‑공간)으로 복원하는 프레임워크인 Local‑EndoGS를 제안한다. 윈도우 기반의 진행형 전역 장면 표현과 다중 뷰 기하학·단안 깊이 사전·크로스‑윈도우 정보를 결합한 단계적 초기화 전략, 그리고 장거리 픽셀 궤적 및 물리적 움직임 사전 제약을 통해 기존 방법보다 외관·기하학 모두에서 우수한 성능을 달성한다.

상세 분석

Local‑EndoGS는 기존 4D 내시경 재구성 연구가 안고 있던 두 가지 근본적인 한계를 동시에 해결한다. 첫 번째는 “고정된 카메라” 가정이다. 대부분의 최신 INR(Implicit Neural Representation) 및 3D Gaussian Splatting 기반 방법은 단일 정규 공간(canonical space)과 변형 필드(deformation field)만을 사용해 시점 변화에 대응한다. 그러나 실제 수술에서는 내시경이 조직 주위를 자유롭게 이동하거나 전진·후퇴하면서 새로운 시야가 지속적으로 등장한다. 이때 단일 정규 공간은 관측된 모든 장면을 포괄하기 어렵고, 기존 방법은 관측‑정규 매핑을 잃어버려 재구성 품질이 급격히 저하된다. Local‑EndoGS는 이러한 문제를 “윈도우 기반 전역 표현”으로 해결한다. 입력 시퀀스를 동적 특성에 따라 여러 로컬 윈도우로 분할하고, 각 윈도우마다 독립적인 로컬 정규 공간과 변형 필드를 할당한다. 윈도우는 시간 순서대로 진행되며, 이전 윈도우의 파라미터를 초기값으로 활용해 점진적으로 최적화한다. 이 설계는 (1) 장시간 시퀀스에서도 메모리와 연산량을 선형적으로 관리할 수 있게 하고, (2) 카메라가 크게 이동해도 새로 관측된 영역을 즉시 로컬 정규 공간에 매핑함으로써 정규‑관측 일관성을 유지한다.

두 번째 한계는 “신뢰할 수 없는 초기화”이다. 기존 방법은 스테레오 깊이 사전이나 COLMAP 같은 SfM 파이프라인을 이용해 정규 공간을 초기화한다. 하지만 단안 내시경은 깊이 스케일이 불명확하고, 조직 변형·조명 변화·텍스처 부족으로 SfM이 실패하기 쉽다. Local‑EndoGS는 “코스‑투‑파인 초기화 전략”을 도입한다. 초기 단계에서는 다중 뷰 기하학(예: 에피폴라 제약)과 크로스‑윈도우 정합을 이용해 대략적인 3D 포인트 클라우드를 구축하고, 이를 단안 깊이 추정 네트워크(예: Monodepth2)와 결합해 스케일을 정규화한다. 이후 각 로컬 윈도우마다 이 초기화 결과를 미세 조정하면서 정규 공간을 정밀하게 재구성한다. 이 과정에서 깊이 사전의 불확실성을 고려해 가중치를 동적으로 조정함으로써, 스테레오 깊이 없이도 일관된 스케일과 구조를 확보한다.

또한, Local‑EndoGS는 최적화 단계에서 두 가지 추가 제약을 도입한다. 첫째, 장거리 2D 픽셀 궤적 제약이다. 연속된 프레임에서 동일 픽셀의 이동 경로를 추적하고, 이를 변형 필드에 직접 매핑함으로써 시간적 연속성을 강제한다. 이는 특히 빠른 카메라 이동 시 발생하는 관측‑정규 불일치를 완화한다. 둘째, 물리적 움직임 사전(예: 조직의 탄성·점성 모델)이다. 변형 필드에 물리 기반 정규화를 적용해 비현실적인 급격한 변형을 억제하고, 실제 조직 변형에 근접한 매끄러운 변형을 유도한다. 이러한 제약은 손실 함수에 L2 정규화와 물리 기반 에너지 항을 추가함으로써 구현된다.

실험에서는 EndoVis, Hamlyn 등 공개된 세 개의 내시경 데이터셋을 사용해 다양한 카메라 움직임(고정, 회전, 전진)을 포함한 시나리오를 평가한다. 정량적 지표(PSNR, SSIM, Chamfer Distance)와 정성적 시각화 모두에서 Local‑EndoGS는 기존 최첨단 INR·3DGS 기반 방법보다 평균 2‑3dB 높은 PSNR과 30% 이하의 Chamfer Distance 감소를 기록한다. 특히 카메라가 크게 이동하는 경우에도 외관 왜곡이 거의 없으며, 복원된 기하학이 실제 조직 형태와 높은 일치도를 보인다. Ablation 연구에서는 (1) 윈도우 기반 전역 표현 제거, (2) 초기화 단계에서 단일 뷰 깊이만 사용, (3) 장거리 궤적 및 물리 사전 제거 각각이 성능 저하를 초래함을 확인한다. 코드와 데이터는 논문 수락 시 공개될 예정이다.

요약하면, Local‑EndoGS는 (1) 윈도우 기반 진행형 전역 장면 모델링, (2) 다중 뷰·크로스‑윈도우·단안 깊이 결합 초기화, (3) 장거리 픽셀 궤적 및 물리 사전 제약이라는 세 가지 핵심 기술을 통해, 단안 내시경 영상에서 임의 카메라 움직임을 포함한 4D 변형 장면을 고품질·고효율적으로 재구성한다는 점에서 기존 연구에 비해 실용적·학술적 기여가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기