정확하고 저비용 마커리스 뉴런비게이션 구현
초록
본 논문은 기존의 적외선 마커 기반 뉴런비게이션 시스템이 갖는 물리적 마커 착용 불편과 비용 문제를 해결하고자, 저가형 RGB‑D 및 스테레오 카메라를 이용한 마커리스 추적 방법을 제안한다. 두 대의 Azure Kinect DK를 활용해 단일 RGB, 스테레오 RGB, 깊이 센서 세 가지 추적 파이프라인을 구현하고, 각각에 통계적 얼굴 모델을 적용한 유무를 비교하였다. 50명의 피험자를 대상으로 표준 NDI Polaris Vicra 시스템과 비교 실험을 수행한 결과, 최적의 마커리스 알고리즘은 평균 위치 오차 2.32 mm, 회전 오차 2.01°를 기록해 TMS 적용에 충분한 정확도를 보였다.
상세 분석
이 연구는 뉴런비게이션의 핵심 과제인 ‘실시간 3차원 머리 자세 추정’을 컴퓨터 비전 기술로 대체하려는 시도로, 하드웨어와 알고리즘 양면에서 혁신을 시도한다. 하드웨어 측면에서는 두 대의 Azure Kinect DK를 동기화·공간 보정하여 RGB와 깊이 데이터를 동시에 수집한다. 각 장치는 RGB 카메라와 적외선 깊이 센서를 내장하고 있어, 단일 RGB 기반 PnP 추정, 스테레오 RGB 삼각측량, 그리고 깊이 포인트 클라우드 정합이라는 세 가지 독립적인 추적 경로를 제공한다.
알고리즘적으로는 먼저 MediaPipe 프레임워크를 이용해 468개의 얼굴 랜드마크를 검출하고, 실험적 분석을 통해 가장 안정적인 서브셋(예: 눈꼬리, 코끝, 입술 양쪽 끝 등)을 선택한다. 이 서브셋은 2D 픽셀 좌표와 사전 정의된 3D 얼굴 모델 좌표 사이의 대응 관계를 형성한다. 단일 RGB 파이프라인에서는 PnP(포인트‑투‑픽셀) 최적화를 통해 카메라 좌표계에서 머리 좌표계로의 SE(3) 변환을 추정한다. 여기서 사용된 손실 함수는 2D 재투영 오차의 L2 노름이며, 카메라 내부 파라미터는 체스보드 캘리브레이션으로 사전에 확보한다.
스테레오 RGB 파이프라인은 두 카메라 간의 기본 행렬을 이용해 동일 랜드마크의 2D 대응점을 삼각측량함으로써 3D 좌표를 복원한다. 복원된 3D 포인트와 3D 얼굴 모델 간의 정합을 다시 PnP에 적용해 자세를 추정한다. 깊이 기반 파이프라인은 Azure Kinect의 깊이 센서가 제공하는 포인트 클라우드에서 얼굴 영역을 분리하고, ICP(Iterative Closest Point)와 같은 정합 기법을 통해 모델과의 최적 변환을 구한다.
각 파이프라인에 통계적 얼굴 사전(prior)을 도입한 경우와 도입하지 않은 경우를 비교한다. 통계적 사전은 대규모 얼굴 스캔 데이터베이스에서 추출한 주성분(PC) 기반 형태 변수를 이용해, 관측된 랜드마크가 물리적으로 가능한 얼굴 형태 내에 머물도록 정규화한다. 이는 특히 부분 가림이나 표정 변화에 강인성을 부여한다.
실험 설계는 50명의 성인 피험자를 대상으로, 표준 NDI Polaris Vicra 시스템을 기준으로 각 프레임의 위치·회전 차이를 측정한다. 위치 오차는 유클리드 거리(mm)로, 회전 오차는 각도(°)로 계산한다. 결과는 평균 오차뿐 아니라 중앙값(median)과 사분위 범위(IQR)를 제시해 분포 특성을 명확히 한다. 최종적으로 ‘Depth + 통계적 사전’ 조합이 2.32 mm / 2.01°의 중앙값 오차를 기록했으며, 이는 기존 마커 기반 시스템(≈1 mm 수준)과 비교해 약간 낮지만, TMS와 같은 임상 적용에 충분히 허용 가능한 수준이다.
이 논문의 주요 기여는 (1) 저가형 RGB‑D·스테레오 카메라만으로 마커리스 뉴런비게이션을 구현한 점, (2) 통계적 얼굴 모델을 활용해 다양한 센서 모달리티 간 정밀도를 향상시킨 점, (3) 50명 규모의 대규모 피험자 실험을 통해 실용성을 검증한 점이다. 한계점으로는 조명 변화에 대한 민감성, 얼굴 표정·머리 움직임에 따른 랜드마크 검출 오류, 깊이 센서의 잡음 및 거리 제한 등이 있다. 향후 연구에서는 실시간 표정 보정, 다중 피험자 동시 추적, 그리고 실제 TMS 세션에서의 장기적인 추적 안정성 평가가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기