표현 인식형 상태공간 모델 기반 라이트필드 초해상도

본 논문은 라이트필드(Light Field, LF) 이미지의 초해상도(LFSR) 문제를 해결하기 위해, 기존 상태공간 모델(State Space Model, SSM) 기반 접근법의 한계를 극복하는 새로운 프레임워크인 RASLF(Representation‑Aware State‑Space Model for Light‑Field Super‑Resolution)를 제안한다. 라이트필드는 4차원(각도 u, v와 공간 x, y)으로 표현되는 고차원 데이터이며, 이를 효율적으로 처리하기 위해 일반적으로 Sub‑Aperture Images(SAI), Macro‑Pixel Images(MacPI), Epipolar Plane Images(EPI)와 같은 2D 표현으로 분해한다. 각각의 표현은 공간 텍스처, 각도 분포, 그리고 파라랙스 기반 기하학적 제약이라는 서로 다른 정보를 제공한다. 기존 연구는 이러한 다중 표현을 활용하려 했지만, (1) 하나의 표현에만 집중하거나, (2) 여러 표현을 결합하더라도 구조적 상호보완성을 명시적으로 모델링하지 못해 텍스처 손실과 시점 간 정합 오류가 발생했다. 또한, SSM 기반 모델은 선형 복잡도로 장거리 의존성을 학습할 수 있는 장점이 있지만, 모든 표현에 동일한 스캔 경로를 적용함으로써 불필요한 연산과 특징 중복을 초래했다. **제안된 구조와 핵심 모듈** 1. **Progressive Geometric Refinement(PGR) 블록** - 파노라마 에피폴라(Panoramic Epipolar) 표현을 도입해 기존의局部 EPIs를 전역적인 기하학적 맵으로 확장한다. 이는 모든 시점·각도에 걸친 파라랙스 차이를 하나의 연속적인 구조로 통합해, 초기 단계부터 깊이‑의존적인 기하학 정보를 제공한다. - PGR은 SAI → MacPI → EPI 순서로 변환·정제하는 3단계 파이프라인을 갖는다. 각 단계마다 VSSM(Visual State Space Model)을 적용해 선형 복잡도로 장거리 의존성을 캡처한다. 특히, SAI 단계에서는 (U·V)×(H·W) 형태로 토큰을 재배열하고, MacPI 단계에서는 (H·W)×(U·V) 형태로 전환해 각도‑공간 상호작용을 강화한다. 마지막 EPI 단계에서는 파노라마 에피폴라 토큰을 이용해 파라랙스 일관성을 강제한다. 2. **Representation‑Aware Asymmetric Scanning(RAAS) 전략** - 기존 SSM 기반 LFSR이 모든 표현에 동일한 4방향(좌·우·상·하) 스캔을 적용한 반면, RAAS는 각 표현에 최적화된 스캔 경로 집합 Φ를 정의한다. 예를 들어, EPIs는 파라랙스가 일정한 방향성을 가지므로 수평 스캔만으로 충분하고, 불필요한 수직 스캔은 제거한다(경로 프루닝). 반면, MacPI와 SAI는 보다 균형 잡힌 다방향 스캔이 필요하다. - 이러한 비대칭 스캔은 연산량을 평균 30% 이상 절감하면서도, 표현별 구조적 제약을 유지한다. 또한, 스캔 경로를 동적으로 조정하는 메커니즘을 통해 입력 장면의 복잡도에 따라 적응적으로 연산을 할당한다. 3. **Dual‑Anchor Aggregation(DAA) 모듈** - PGR 블록이 여러 단계에 걸쳐 생성한 중간 특징들을 “spatial anchor”(초기 SAI 특징)와 “geometric anchor”(최종 EPI 특징) 두 기준점에 연결한다. 이중 앵커 구조는 깊은 레이어에서 발생할 수 있는 특징 중복을 억제하고, 중요한 재구성 신호를 강조한다. - 구체적으로, 각 단계의 출력은 1×1 컨볼루션으로 차원을 맞춘 뒤, spatial anchor와 element‑wise addition, geometric anchor와 concat 후 또다시 fusion을 수행한다. 이렇게 하면 shallow 레이어의 세밀한 텍스처와 deep 레이어의 전역 기하학 정보가 효율적으로 결합된다. 4. **전체 파이프라인** - 입력 LR 라이트필드는 먼저 2D 컨볼루션과 Angular Embedding을 통해 초기 특징 F₀를 만든다. 이후 M개의 PGR 블록을 순차적으로 통과시켜 F₁…F_M을 얻고, DAA 모듈을 통해 최종 집계 특징 F*를 만든다. 마지막으로 픽셀‑쉐프(pixel‑shuffle) 업샘플링 모듈을 거쳐 residual R을 예측하고, bicubic 업샘플링된 베이스 이미지와 합산해 최종 HR 라이트필드를 생성한다. 학습은 L1 손실을 기본으로 하며, 파라랙스 일관성을 강화하기 위한 보조 손실을 추가했을 가능성이 있다. **실험 및 평가** - EPFL, HCI, Stanford Lytro 등 공개 라이트필드 데이터셋에서 2×, 4×, 8× 확대를 테스트하였다. PSNR/SSIM 기준으로 기존 최첨단 SSM 기반 모델(L2FMamba, LFT‑ransMamba 등)을 모두 앞선다. 특히 8× 확대에서 0.3~0.5 dB 정도의 향상을 보이며, FLOPs와 파라미터 수는 20~30% 수준으로 감소한다. - 시각적 결과에서도 미세 텍스처 복원과 시점 간 기하학적 일관성이 크게 개선된 것을 확인할 수 있다. Ablation study에서는 PGR, RAAS, DAA 각각이 독립적으로 성능 향상에 기여함을 입증한다. - 추가적인 분석에서는 메모리 사용량이 파노라마 에피폴라 변환 단계에서 일시적으로 증가하지만, 전체 파이프라인의 메모리 효율성은 여전히 기존 방법보다 우수함을 보여준다. **기여 및 한계** - (1) 파노라마 에피폴라를 통한 전역 기하학 정제, (2) 표현‑특화 비대칭 스캔으로 연산 효율성 극대화, (3) 이중 앵커 집계로 특징 중복 최소화라는 세 가지 핵심 기여가 있다. - 한계로는 파노라마 변환 과정에서 메모리 피크가 발생할 수 있으며, 복잡한 변환 파이프라인이 구현 난이도를 높일 수 있다는 점이다. 향후 연구에서는 메모리 최적화와 더 가벼운 변환 연산을 탐색할 필요가 있다. **결론** RASLF는 라이트필드 초해상도에서 텍스처 디테일과 기하학적 정합을 동시에 달성하기 위한 새로운 설계 패러다임을 제시한다. 다중 표현을 명시적으로 인식하고, 각각에 최적화된 스캔 경로와 집계 방식을 적용함으로써, 기존 SSM 기반 방법 대비 높은 재구성 품질과 낮은 연산 비용을 동시에 얻었다. 이는 라이트필드 기반 증강현실·VR·3D 촬영 등 실시간 고해상도 응용 분야에 큰 잠재력을 제공한다.

표현 인식형 상태공간 모델 기반 라이트필드 초해상도

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기