다중스케일 텐서 분해 기반 RGB 이미지 압축 센싱 혁신

다중스케일 텐서 분해 기반 RGB 이미지 압축 센싱 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MTS‑CSNet은 다중스케일 텐서 Summation(MTS) 연산을 학습 가능한 압축 센싱 연산자로 활용하고, 그 수반되는 어드점 연산을 비선형화해 초기 복원을 만든 뒤, 가벼운 MTSNet 블록으로 정제하는 완전 피드‑포워드 구조이다. 전통적인 컨볼루션·블록 기반 센싱 방식의 제한을 넘어 전역적인 상관관계를 모델링하면서도 파라미터와 연산량을 크게 줄인다. 실험 결과는 Urban100·DIV2K 등에서 최신 확산 기반 및 전통적 딥 CS 방법들을 능가하는 PSNR·SSIM 향상을 보여준다.

상세 분석

본 논문은 고차원 RGB 이미지에 대한 압축 센싱(Compressive Sensing, CS) 문제를 다루면서, 기존의 컨볼루션 혹은 블록‑단위 완전 연결(FC) 방식이 갖는 수용 영역 제한과 스케일 확장성 문제를 근본적으로 해결하고자 한다. 핵심 아이디어는 ‘Multiscale Tensor Summation(MTS)’이라는 구조화된 선형 변환을 센싱 연산자와 복원 연산자 모두에 적용하는 것이다. MTS는 텐서의 각 모드(예: 높이, 너비, 채널)에 대해 다중 스케일 윈도우를 사용해 패치‑레벨 텐서 곱을 수행하고, 그 결과를 원본 위치에 역배치 후 합산한다. 이 과정은 (i) 다중 스케일 정보를 동시에 활용해 전역적인 수용 영역을 확보하고, (ii) 모드‑와 스케일‑별 파라미터를 공유함으로써 파라미터 수를 O(∑ m_j n_j) 수준으로 억제한다는 두 가지 장점을 제공한다.

MTS‑CSNet은 먼저 MTS 레이어를 압축 센싱 연산자로 사용한다. 입력 이미지 텐서 S에 대해 Eq.(5)의 형태로 여러 스케일‑별 투영 행렬 A(t,sc)ₖ를 학습시켜, 원하는 압축 비율(CR)에 맞는 차원 축소된 측정 텐서 Y를 만든다. 여기서 T는 각 스케일당 합산되는 텐서‑분해 성분 수이며, 실험에서는 T=12,24,48을 탐색한다. 기존 GTS‑CS가 단순히 여러 separable 텐서 곱을 합산해 비분리적 센싱을 근사한 반면, MTS는 패치‑단위 블록 대각 행렬을 이용해 공간적 로컬리티와 스케일 정보를 동시에 인코딩한다는 점에서 더 풍부한 표현력을 제공한다.

초기 복원 단계에서는 MTS의 어드전트(전치) 연산을 사용한다. 일반적인 CS에서는 선형 어드전트를 그대로 역변환으로 쓰지만, 저자는 여기서 MHG(Multiscale Hybrid Gating) 비선형 활성화를 삽입해 어드전트 연산 전후의 표현력을 강화한다. 이 비선형 백‑프로젝션은 “proxy reconstruction”이라 부르는 거친 복원 영상을 생성하고, 이후 MTSNet 블록을 통해 정제한다. MTSNet은 네 개의 MTS 레이어를 쌓은 블록을 N_B=3번 반복하는 경량 구조이며, 각 레이어는 동일한 다중 스케일 원리를 공유한다. 따라서 전체 파이프라인은 복잡한 반복 최적화나 딥 언폴딩 없이도 높은 복원 품질을 달성한다.

실험에서는 Urban100·DIV2K의 256×256 패치를 사용해 10 %, 30 %, 50 % 샘플링 비율을 평가한다. 비교 대상은 DDRM, Π‑GDM, DPS, DDNM, GDP, PSLD, SR3, IDM 등 최신 확산 기반 및 전통적 딥 CS 모델이다. 결과는 PSNR 기준으로 MTS‑CSNet(T=48, NB=3)이 IDM보다 Urban100에서 평균 1.34 dB, DIV2K에서 4.61 dB 높은 성능을 보이며, SSIM에서도 각각 0.0043, 0.0387의 개선을 기록한다. 특히 30 %·50 % 샘플링 구간에서 1위 혹은 2위를 지속적으로 차지한다. 시각적 비교에서도 MTS‑CSNet은 미세 구조와 에지를 선명하게 복원하고, 다른 방법들은 흐릿함이나 블록 아티팩트를 보인다.

복잡도 측면에서는 파라미터 수, 메모리 사용량, GFLOPs, 추론 시간 모두에서 기존 확산 모델보다 수십 배 가량 효율적이다. 예를 들어 10 % 샘플링 시 DIV2K 기준으로 MTS‑CSNet은 약 0.8 M 파라미터와 0.12 GFLOPs, 0.03 초 추론 시간을 기록한다. 이는 대규모 확산 모델이 수백 MB 파라미터와 수 초의 추론 시간을 요구하는 것과 큰 차이를 만든다.

한계점으로는 현재 MTS‑CSNet이 RGB 정적 이미지에 초점을 맞추고 있어, 비디오·다중 스펙트럼 데이터에 대한 확장성 검증이 부족하다는 점이다. 또한 스케일‑별 윈도우 크기와 T 값에 대한 민감도 분석이 제한적이며, 실제 하드웨어(예: 임베디드 센서)에서의 구현 비용에 대한 논의가 부족하다. 향후 연구에서는 동적 스케일 선택, 비선형 어드전트 설계 다양화, 그리고 실시간 임베디드 구현을 목표로 한 최적화가 필요할 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기