다중 모바일 카메라를 위한 통합 ISP 학습 Uni‑ISP
초록
Uni‑ISP는 여러 스마트폰 카메라의 ISP를 하나의 네트워크로 통합 학습한다. 장치별 임베딩과 특수 손실 함수를 활용해 전·역 ISP 성능을 각각 평균 +2.4 dB·+1.5 dB PSNR 향상시키고, 카메라 간 스타일 전이·보간·포렌식 등 새로운 응용을 가능하게 한다. 이를 위해 4K 해상도의 동시 촬영 데이터셋 FiveCam(5대 기기·2,464쌍)을 구축하였다.
상세 분석
Uni‑ISP는 기존 학습 기반 ISP가 카메라마다 별도 모델을 필요로 하는 한계를 넘어, 다중 디바이스를 하나의 파라미터 집합으로 다루는 ‘디바이스‑어웨어 임베딩(device‑aware embedding)’ 방식을 도입한다. 각 카메라 a에 대해 D 차원의 임베딩 Eₐ를 학습 파라미터로 두고, 역 ISP 모듈 g와 정 ISP 모듈 h에 동일한 인코더‑디코더 구조를 공유시킨 뒤, 중간 bottleneck feature와 Eₐ 사이에 교차‑어텐션 형태의 DEIM(Device‑aware Embedding Interaction Module)을 삽입한다. 이 설계는 전역적인 ISP 공통성을 공유 백본이 학습하도록 하면서, 동시에 개별 카메라 고유의 색감·노이즈·톤 매핑 등을 임베딩을 통해 세밀히 조정한다는 두 가지 목표를 동시에 달성한다.
모델 내부는 Local Feature Extraction Block(LFEB)과 Global Feature Manipulation Block(GFMB)으로 구성된다. LFEB는 다중 conv‑layer, half‑instance‑norm, 채널·공간 어텐션을 포함해 미세 디테일을 보존하고, GFMB는 EXIF에서 추출한 노출·ISO·f‑number 등 전역 메타데이터를 활용해 전역 색보정·감마 조정을 수행한다. 이러한 구조는 실제 카메라 ISP가 로컬 톤 매핑과 글로벌 색 보정을 병행하는 흐름을 효과적으로 모방한다.
데이터 측면에서 저자들은 5대 스마트폰(iPhone, Samsung Galaxy, Google Pixel 등)을 동기화된 4K 카메라 어레이에 배치해, 동일 장면을 동시에 촬영한 sRGB‑RAW 쌍을 2,464장 수집하였다. 다중 카메라 간 미세 정렬 오차를 보정하기 위해 optical‑flow 기반 워핑을 적용하고, 워핑 과정에서 발생하는 고주파 손실을 보완하기 위한 Frequency‑Bias‑Correction(FBC) 손실을 설계하였다. FBC는 워핑된 이미지와 원본 사이의 고주파 차이를 L1‑norm이 아닌 주파수 도메인에서 정규화함으로써 텍스처 블러를 최소화한다.
학습은 두 단계로 나뉜다. ① Self‑camera 단계에서는 각 카메라별 sRGB와 대응 XYZ(또는 RAW) 쌍을 사용해 역 ISP(L₁)와 정 ISP(L₁) 손실을 동시에 최소화한다. ② Cross‑camera 단계에서는 한 카메라의 sRGB를 입력으로 다른 카메라의 정 ISP를 예측하도록 하여, 카메라 간 스타일 전이와 보간·외삽을 학습한다. 이때 역 ISP는 동일하게 사용되므로, 전체 파이프라인이 순환 구조를 유지하며 자기 일관성을 확보한다.
실험 결과, Uni‑ISP는 기존 단일‑카메라 학습 모델 대비 정 ISP에서 평균 +2.4 dB, 역 ISP에서 +1.5 dB PSNR 향상을 기록하였다. 또한, 임베딩을 교차 조합함으로써 “Samsung + 0.5 + Xiaomi + 0.5”와 같은 중간 스타일을 생성하거나, 완전히 다른 카메라의 색감을 다른 디바이스에 적용하는 스타일 전이 작업에서도 시각적으로 자연스러운 결과를 얻었다. 포렌식 측면에서는 학습된 ISP 행동의 자기 일관성을 이용해 zero‑shot 소스 카메라 식별 및 이미지 스플라이스 탐지를 수행했으며, 별도 라벨링 없이도 높은 정확도를 달성했다.
전체적으로 Uni‑ISP는 (1) 다중 디바이스에 대한 파라미터 효율성을 크게 개선하고, (2) 공통 백본과 디바이스‑특화 임베딩의 조합으로 ISP 전·역 변환을 고성능으로 수행하며, (3) 스타일 전이·보간·포렌식 등 새로운 응용을 가능하게 하는 범용 프레임워크로 자리매김한다. 향후 더 많은 카메라 모델을 추가하고, 임베딩 차원을 메타데이터와 연계해 자동화된 디바이스 인식 및 적응을 구현한다면, 모바일 사진 처리 파이프라인을 하나의 통합 모델로 대체할 가능성이 열릴 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기