다중 카메라 무주석 영상 익명화의 새로운 자기지도 학습 방법
초록
본 논문은 수술실에서 촬영된 다중 카메라 영상을 사전 라벨 없이, 그리고 카메라 캘리브레이션 없이 전체 인체 검출과 자세 추정을 통해 자동 익명화하는 프레임워크를 제안한다. 저점수 검출을 트래킹·다중‑뷰 연관을 통해 회수하고, 이를 의사라벨로 활용해 자기지도 도메인 적응을 반복함으로써 97 % 이상의 재현율을 달성한다.
상세 분석
이 연구는 수술실(OR) 영상에서 개인정보 보호를 위한 자동 블러링 문제를 ‘거짓 음성(false negative)’ 최소화라는 핵심 목표로 재정의한다. 기존 방법은 고정된 임계값 기반 검출기에 의존하거나, 캘리브레이션된 RGB‑D 카메라를 필요로 했지만, 본 논문은 두 가지 근본적인 병목을 동시에 해소한다. 첫째, 라벨이 없는 새로운 임상 현장에서도 적용 가능한 ‘자기지도(domain‑agnostic) 도메인 적응’ 메커니즘을 도입한다. 구체적으로, 사전 학습된 CrowdHuman 기반 전신 검출기를 낮은 스코어 임계값으로 실행해 풍부한 후보 박스를 생성한다. 이후, ByteTrack 스타일의 트래커가 고점수 검출을 쿼리로 삼아 저점수 박스를 시간 축에서 연결한다. 이때 트래커는 모든 후보를 후보 풀에 포함시켜, 일시적 가림이나 저조도 상황에서도 연속성을 유지한다. 둘째, 캘리브레이션 없이 다중 카메라 간 연관성을 확보하기 위해 Self‑MV‑A 방식을 변형한다. 두 뷰에서 동일 시점에 촬영된 이미지 쌍을 구분하도록 학습된 지오메트리 인코더는, 고점수 검출이 존재하는 뷰를 쿼리로, 다른 뷰의 전체 후보를 갤러리로 삼아 연관성을 추정한다. 이렇게 얻어진 다중‑뷰 연관 결과는 트래킹이 놓친 박스를 보완하고, 특히 한 뷰에서 완전히 가려진 인체를 다른 뷰에서 회수한다. 회수된 박스들은 ‘pseudo‑label’ 로 활용되어 검출기와 자세 추정기 모두에 자기지도 파인튜닝을 수행한다. 파인튜닝은 여러 라운드에 걸쳐 반복되며, 매 라운드마다 증강된 라벨 풀의 품질이 향상돼 최종 검출기의 재현율이 크게 상승한다. 실험에서는 4D‑OR 시뮬레이션 데이터와 실제 수술 영상 두 데이터셋에 대해 하드 케이스(> 67 % 가림)와 전체 재현율을 측정했으며, 97 % 이상의 재현율을 기록했다. 특히, 1시간 길이 실시간 영상에서 13,500건 이상의 누락을 방지함으로써 수작업 검토 시간을 크게 절감한다. 또한, 고품질 pseudo‑label 로부터 실시간(> 30 FPS) 전신 검출기를 학습시켜 현장 적용 가능성을 입증한다. 전체 파이프라인은 ‘검출 → 트래킹 → 다중‑뷰 연관 → 라벨 증강 → 파인튜닝’ 순환 구조를 갖으며, 각 단계가 서로 보완적으로 작동한다는 점이 가장 큰 강점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기