라이트필드 초해상도를 위한 스킴 트랜스포머: 적게 보지만 더 많이

라이트필드 초해상도를 위한 스킴 트랜스포머: 적게 보지만 더 많이
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

스킴 트랜스포머는 라이트필드(LF) 이미지의 시차 정보를 효율적으로 활용하기 위해 전체 SAIs를 모두 사용하지 않고, 사전 정의된 “스킴드” SAI 집합만을 선택해 멀티‑브랜치 어텐션을 수행한다. 이를 기반으로 만든 SkimLFSR은 기존 최고 성능 모델 대비 파라미터 33 % 절감, FLOPs 35 % 감소, 추론 시간 28 % 단축하면서 2×·4× 초해상도에서 각각 0.63 dB·0.35 dB PSNR 향상을 달성한다. 또한 각 브랜치가 서로 다른 시차 범위에 특화돼 시차 얽힘(disparity entanglement)을 해소하고, 훈련 각도 해상도와 무관하게 다른 각도 해상도로도 좋은 일반화 능력을 보인다.

상세 분석

본 논문은 라이트필드 이미지가 갖는 4차원(각도 × 공간) 구조에서 발생하는 ‘시차 얽힘’ 문제를 핵심으로 짚는다. 기존 Transformer 기반 LFSR은 모든 SAIs를 하나의 토큰 시퀀스로 취급해 전역 어텐션을 수행하지만, 이는 서로 다른 깊이와 시차를 가진 픽셀들이 동일한 가중치로 혼합돼 중요한 시차 단서를 희석시킨다. 스킴 트랜스포머는 이 한계를 “덜 사용하라(Less is more)”라는 철학으로 해결한다. 구체적으로, 전체 SAIs를 전부 사용하지 않고, 사전에 정의된 스킴드 SAI 집합을 각 브랜치에 할당한다. 각 브랜치는 서로 다른 시차 범위(예: 큰 시차‑외곽 SAIs, 작은 시차‑내부 SAIs)를 담당하도록 설계돼, 해당 범위에 최적화된 어텐션 스코어 행렬을 계산한다. 이렇게 하면 (1) 어텐션 연산의 복잡도가 O(N²)에서 선택된 SAIs 수에 비례해 크게 감소하고, (2) 각 브랜치가 특정 시차에 집중함으로써 시차 정보를 명시적으로 disentangle한다.

네트워크 구조는 크게 세 단계로 나뉜다. 초기 특징 추출 단계에서는 3×3 Conv 4층으로 저레벨 공간 특징을 얻고, 깊은 특징 추출 단계에서는 N개의 Correlation Block을 쌓는다. 각 Correlation Block은 스킴 트랜스포머(공간‑시차 어텐션)와 기존 Angular Transformer(각도 어텐션)를 순차적으로 적용해 공간‑각도 복합 표현을 만든다. 또한 원본 LF 텐서를 마지막 블록 출력에 직접 연결하는 ‘raw image connection’과, 채널별 가중치를 학습하는 ‘learnable skip connection’를 도입해 정보 흐름을 강화한다.

실험 결과는 두 가지 측면에서 의미가 크다. 첫째, 파라미터 67 % 수준(경량형 변형은 37 %)에 불구하고 PSNR 기준으로 기존 최고 모델(M2MTNet)보다 2×에서는 0.63 dB, 4×에서는 0.35 dB 향상한다. 이는 시차‑특화 어텐션이 실제 성능 향상으로 직결됨을 증명한다. 둘째, 스킴 트랜스포머는 전체 각도 해상도에 종속되지 않는다. 스킴드 SAIs만을 임베딩에 사용하기 때문에 훈련 시 사용한 (U×V)와 다른 각도 해상도에서도 재학습 없이 경쟁력 있는 결과를 얻는다. 이는 라이트필드 카메라가 제공하는 다양한 각도 설정에 대해 모델을 유연하게 적용할 수 있음을 의미한다.

또한, 내부 분석에서는 각 브랜치가 깊이와 카메라 구성에 대한 암묵적 구분 능력을 보이며, 이는 별도 라벨 없이 회귀 기반 초해상도 학습만으로도 시차 정보를 효과적으로 학습한다는 점을 보여준다. 이러한 특성은 향후 라이트필드 기반 깊이 추정, 뷰 합성 등 다른 비전 과제로의 확장 가능성을 시사한다.


댓글 및 학술 토론

Loading comments...

의견 남기기