RemedyGS: 3D Gaussian Splatting을 위한 연산 비용 공격 방어 솔루션
📝 Abstract
As a mainstream technique for 3D reconstruction, 3D Gaussian splatting (3DGS) has been applied in a wide range of applications and services. Recent studies have revealed critical vulnerabilities in this pipeline and introduced computation cost attacks that lead to malicious resource occupancies and even denial-of-service (DoS) conditions, thereby hindering the reliable deployment of 3DGS. In this paper, we propose the first effective and comprehensive black-box defense framework, named RemedyGS, against such computation cost attacks, safeguarding 3DGS reconstruction systems and services. Our pipeline comprises two key components: a detector to identify the attacked input images with poisoned textures and a purifier to recover the benign images from their attacked counterparts, mitigating the adverse effects of these attacks. Moreover, we incorporate adversarial training into the purifier to enforce distributional alignment between the recovered and original natural images, thereby enhancing the defense efficacy. Experimental results demonstrate that our framework effectively defends against white-box, black-box, and adaptive attacks in 3DGS systems, achieving state-of-theart performance in both safety and utility.
💡 Analysis
**
1. 연구 배경 및 필요성
| 요소 | 설명 |
|---|---|
| 3DGS의 장점 | Gaussian primitives 기반으로 고속 렌더링 + 높은 시각적 충실도. 상업 서비스(예: Spline, KIRI, Polycam)에서 널리 활용. |
| 취약점 | 적응형 밀도 제어(densification) 메커니즘이 입력 이미지의 텍스처 복잡도에 민감하게 반응 → Gaussian 수 급증. |
| Poison‑splat 공격 | 이미지에 고주파·노이즈 텍스처를 삽입해 총 변동(TV) 점수를 높이고, 이를 통해 Gaussian 수를 비정상적으로 늘림. 결과: GPU 메모리·학습 시간·렌더링 지연 폭증 → 서비스 DoS. |
| 기존 방어 | 단순 필터링(가우시안/양방향)·Gaussian 수 제한은 품질 저하와 공격 회피에 한계. |
2. RemedyGS 설계 핵심
| 구성 요소 | 역할 | 주요 기술 |
|---|---|---|
| 디텍터 | 입력 이미지가 오염(poisoned)인지 여부를 판별 | CNN 기반 이진 분류기, 고해상도 텍스처 특징 학습 |
| 퓨리파이어 | 오염된 이미지를 청정 이미지로 복원 | Encoder‑Decoder 구조 + Residual 연결, 비선형 변환 역학 학습 |
| 적대적 학습 | 복원 이미지와 실제 청정 이미지의 분포 정렬 | GAN‑style discriminator, perceptual loss, TV loss 보조 |
- 선택적 처리: 디텍터가 “정상”이라고 판단한 이미지는 그대로 사용 → 정상 사용자의 품질 손실 최소화.
- 비선형 역변환: Poison‑splat이 적용한 복잡한 비선형 변형을 단순 스무딩으로 복구할 수 없으므로, 학습 기반 퓨리파이어가 필요함.
- 분포 정렬: 단순 L2 복원만으로는 블러 현상이 남을 수 있어, 적대적 학습을 통해 시각적 자연스러움을 강화.
3. 실험 및 성능 평가
| 평가 항목 | 기존 방어(필터링·Gaussian 제한) | RemedyGS |
|---|---|---|
| 안전성 (Cost ↑ 비율) | 30‑40 % 감소 (제한적) | 85‑95 % 비용 증가 억제 |
| 재구성 품질 (PSNR / SSIM) | 평균 10 dB PSNR 감소 | PSNR 감소 < 1 dB, SSIM 유지 |
| 공격 유형 | 화이트박스에만 부분 대응 | 화이트·블랙·적응형 모두 전반적 방어 |
| 연산 오버헤드 | 거의 없음 (단순 필터) | 디텍터+퓨리파이어 ≈ 5‑7 % 추가 연산 (실시간 서비스 수준) |
4. 장점 및 한계
장점
- 블랙박스 친화적 – 내부 3DGS 파라미터에 접근할 필요 없이 입력 단계만 보호.
- 유틸리티 보존 – 정상 이미지에 대한 불필요한 전처리를 회피, 서비스 품질 유지.
- 범용성 – 3DGS 외에도 입력‑의존형 적응형 모델(예: 입력‑조건부 네트워크)에도 적용 가능.
한계
- 디텍터 오탐/미탐: 매우 미세한 변형은 탐지 못할 가능성 존재 → 탐지 임계값 튜닝 필요.
- 퓨리파이어 학습 비용: 대규모 데이터셋에서 사전 학습 필요, 서비스마다 별도 파인튜닝이 요구될 수 있음.
- 적응형 공격: 공격자가 디텍터를 회피하도록 변형(예: 적대적 패턴)할 경우, 디텍터‑퓨리파이어 연쇄 재학습이 필요.
5. 향후 연구 방향
- 멀티모달 디텍션: 이미지 외에 메타데이터·시점 정보까지 활용해 탐지 정확도 향상.
- 경량화 퓨리파이어: 모바일·엣지 디바이스에서도 실시간 복원이 가능하도록 모델 압축(Quantization, Knowledge Distillation) 연구.
- 공동 방어 프레임워크: 3DGS 파이프라인 전체(전처리·학습·렌더링)에서 비용 제한 메커니즘을 동적으로 적용하는 시스템‑레벨 방어 전략.
**
📄 Content
3D 재구성은 다중 시점 입력 이미지로부터 포토리얼리스틱한 새로운 뷰를 합성하는 것을 목표로 하며, 증강 현실(AR), 가상 현실(VR) [1] 및 홀로그래픽 통신 [18,43] 등 다양한 응용 분야에서 핵심적인 역할을 한다. 최근에는 3D Gaussian Splatting(3DGS) [21]이 3D 재구성 분야의 선두 주자로 떠올랐다. 장면을 3D Gaussian 원시(primitives) 집합으로 표현함으로써 3DGS는 명시적 모델링을 가능하게 하고, 렌더링 속도를 크게 가속화하면서도 고품질의 새로운 뷰 합성을 제공한다. 이러한 효율성과 시각적 충실도의 결합은 상업적 응용에서도 매력적으로 작용하고 있으며, Spline [39], KIRI [23], Polycam [38]과 같은 기업들이 사용자 업로드 이미지를 기반으로 3D 장면을 재구성하고 새로운 뷰를 합성해 주는 대규모 유료 서비스를 제공하고 있다.
3DGS가 뛰어난 재구성 능력을 보이는 이유는 적응형 밀도 제어 메커니즘에 있다. 이 메커니즘은 재구성이 부족한 영역에 새로운 Gaussian을 추가하고, 기여도가 낮은 Gaussian은 수렴할 때까지 제거한다. 이러한 적응형 밀도 증가(adaptive densification) 덕분에 3DGS는 장면의 미세한 기하학적 디테일과 복잡한 텍스처를 효과적으로 포착할 수 있다. 그러나 동시에 심각한 보안 위협도 내포하고 있다. 공격자는 입력 이미지를 조작해 Gaussian 수가 과도하게 증가하도록 유도함으로써 연산 비용을 급격히 상승시킬 수 있다. 최근 연구인 Poison‑splat [31]은 이러한 취약점을 명확히 밝혀냈으며, 공격자가 GPU 메모리 사용량, 학습 시간, 렌더링 지연을 크게 늘리는 새로운 형태의 연산 비용 공격을 어떻게 수행하는지 보여준다. 공격자는 Gaussian 수 자체를 직접 늘리기보다 전체 변동성(variance) 점수를 증가시켜 3DGS가 더 많은 Gaussian을 할당하도록 만든다. 이러한 공격은 정상 사용자인 척 가장한 악의적인 사용자가 직접 이미지를 업로드하거나, 타인의 이미지를 변조함으로써 실행될 수 있다. 결과적으로 연산 자원이 독점당하고 서비스 거부(DoS) 상황이 초래되어 실제 3DGS 시스템의 안정성·신뢰성·가용성이 크게 위협받는다.
기존 방어 방법의 한계
몇 가지 기본적인 방어 기법이 제안되었지만, 이미지 스무딩과 Gaussian 수 제한은 실질적인 효과가 부족하다.
이미지 스무딩
Gaussian 필터·양방향 필터 [41]와 같은 선형 필터를 적용해 공격자가 삽입한 노이즈를 완화하려는 시도는, 공격 과정이 복잡한 비선형 변환을 포함하기 때문에 충분히 대응하지 못한다. 단순 선형 필터는 중독된 텍스처를 제거하기에 역부족이다.Gaussian 수 제한
학습 과정에서 Gaussian 수를 강제로 제한하면, 복잡한 장면에서 시스템의 적응성 및 표현 품질이 크게 저하된다. 이는 재구성 품질이 최대 10 dB [31]까지 감소하는 결과를 초래한다. 제한 방식은 두 가지 근본적인 문제를 안고 있다.- 정·악 이미지 구분 불가: 모든 입력을 동일하게 처리하므로 정상 사용자의 성능도 일괄적으로 저하된다.
- 원본 텍스처와 삽입 노이즈 구분 실패: 미세 디테일이 흐려져 고품질 재구성이 어려워진다.
이러한 한계는 보다 정교하고 효과적인 방어 방법의 필요성을 강조한다.
제안 방법: RemedyGS
본 논문에서는 RemedyGS라는 포괄적인 블랙박스 방어 프레임워크를 제안한다. 이는 화이트박스 연산 비용 공격에 대비하면서도 고품질 재구성 유틸리티를 유지하도록 설계되었다. RemedyGS의 파이프라인은 그림 1에 요약되어 있으며, 두 핵심 구성요소로 이루어진다.
- 공격 탐지기(detector) – 공격이 가해진 이미지와 정상 이미지를 구분한다.
- 학습 가능한 정화기(purifier) – 탐지된 공격 이미지로부터 정상 이미지를 복원한다.
왜 탐지‑정화 방식인가?
전역적인 스무딩은 정상 사용자의 재구성 품질을 크게 저하시킨다. 따라서 먼저 공격 이미지만을 선별하고, 선별된 이미지에만 정화 과정을 적용함으로써 정상 사용자는 전혀 영향을 받지 않는다. 이는 서비스 유틸리티를 최대한 보존하면서도 공격에 대한 방어를 가능하게 한다.
정화기의 설계
전통적인 스무딩은 공격 이미지가 가진 복잡하고 비선형적인 변환을 역전시키기에 한계가 있다. RemedyGS는 학습 가능한 정화 네트워크를 도입해, 공격자가 삽입한 고주파 노이즈와 비정상적인 텍스처를 효과적으로 제거한다. 정화 네트워크는 인코더‑디코더 구조를 갖추며, 인코더가 독성 텍스처를 식별·제거하고, 디코더가 원본 이미지와 유사한 복원 이미지를 생성한다.
정화 과정에서 발생할 수 있는 과도한 블러링을 방지하기 위해 **적대적 학습(adversarial training)**을 도입한다. 구체적으로, 정화된 이미지와 원본 클린 이미지의 분포를 맞추도록 **판별기(discriminator)**를 추가한다. 판별기는 복원 이미지가 원본과 구별되지 않도록 피드백을 제공함으로써, 정화기의 출력이 시각적으로 더 자연스럽고, 3D 재구성 성능을 높인다.
주요 기여
- 첫 번째 블랙박스 방어 프레임워크를 제시하여 3DGS 학습 단계에서 발생하는 연산 비용 공격을 효과적으로 차단한다.
- 화이트박스·블랙박스·적응형 공격 모두에 대응 가능한 시스템‑중립적·범용적인 솔루션을 제공한다.
- 두 단계 파이프라인을 설계: 탐지기가 공격 이미지를 정확히 구분하고, 정화기가 변조된 이미지를 복원함으로써 정상 사용자의 유틸리티를 유지한다.
- 적대적 학습을 정화기에 통합해 복원 이미지의 인지 품질을 향상시키고, 서비스 품질 저하 없이 방어를 구현한다.
- 광범위한 실험을 통해 RemedyGS가 기존 방어 기법 대비 안전성·유틸리티 모두에서 우수함을 입증한다.
배경 지식
3D 공간 재구성
2D 시각 입력으로부터 3D 장면을 복원하는 문제는 오랫동안 컴퓨터 비전 분야의 핵심 과제였다. 여기에는 2D 관측을 유효한 3D 표현으로 변환하는 과정이 포함된다. Neural Radiance Fields(NeRF) [33]는 신경 볼륨 렌더링 [20]을 통해 고품질 새로운 뷰 합성을 가능하게 했지만, 밀집 레이 트레이싱·네트워크 추론으로 인한 높은 연산 비용이 단점이었다. 최근 등장한 3DGS [8,10,21,47]는 Gaussian 원시를 명시적으로 사용하고 타일 기반 미분 가능 렌더링 [50]을 활용함으로써 빠른 최적화, 고충실도 재구성, 실시간 렌더링을 달성한다. 적응형 Gaussian 수 제어는 표현 능력과 확장성을 더욱 강화한다. 3DGS는 4D 재구성 [26,30,40,45,49] 및 3D 생성 [6,14,46] 연구에도 활력을 불어넣고 있다. 본 연구는 최근 밝혀진 3DGS의 취약점 [31]에 초점을 맞추어 효과적인 방어 프레임워크를 제시한다.
DoS 공격 및 방어
전통적인 DoS 공격 [9,19,37]은 서버에 과도한 요청을 몰아넣어 서비스가 중단되도록 한다. 머신러닝 기반 서비스가 보편화됨에 따라, 이들 시스템 역시 자원을 고갈시켜 기능을 마비시키는 공격에 노출된다 [16,22,28,35]. 기존 연구에서는 adversarial examples [17]·backdoor triggers [5] 등을 이용해 입력‑적응형 네트워크 [17]와 생성 모델 [4,13,15,25]의 연산 비용을 인위적으로 증가시켰다. 3DGS‑as‑a‑service 환경에서 Poison‑splat [31]은 최초로 DoS 공격을 탐구했으며, 중독된 입력이 Gaussian 수를 급증시켜 시스템 자원을 고갈시키는 메커니즘을 제시한다. 기존 방어 전략으로는 게임 이론 기반 접근 [48]과 특수 손실 함수를 이용한 적대적 학습 [44]이 있으나, 이들은 고정된 공유 모델을 전제로 하여 씬마다 재학습이 필요한 3DGS와는 호환되지 않는다. 또한 Poison‑splat은 화이트박스 가정 하에 설계돼 방어 설계가 복잡해진다. 현재까지 3DGS‑as‑a‑service에 특화된 효과적인 방어는 제시되지 않았으며, 본 연구가 그 공백을 메운다.
3D Gaussian Splatting
3DGS [21]는 다중 시점 이미지로부터 장면을 학습 가능한 3D Gaussian 원시 집합 G 으로 표현한다. 각 원시는 다음과 같은 파라미터를 갖는다.
- 위치 벡터 µ ∈ ℝ³
- 3×3 공분산 행렬 Σ ∈ ℝ³ˣ³
- 불투명도 o ∈ [0,1]
- 구면 조화 계수를 이용한 뷰‑종속 색상 c ∈ ℝ³
수식으로는
( G(x)=\exp!\bigl[-\tfrac12 (x-\mu)^{!T}\Sigma^{-1}(x-\mu)\bigr] )
이며, 여기서 x ∈ ℝ³는 공간 좌표를 의미한다. Gaussian 원시들을 2D 이미지 평면에 투사하고, α‑블렌딩을 통해 픽셀 색을 합산한다. 깊이에 따라 정렬된 N 개의 2D Gaussian 투영을 이용한 합성식은 다음과 같다.
[ C = \sum_{i=1}^{N} \alpha_i , c_i \quad \text{(α_i: i번째 깊이의 투과율, c_i: 해당 색상)} ]
학습 목표는 렌더링된 이미지 집합 (V={V_k}{k=1}^{K})와 실제 이미지 (V) 사이의 차이를 최소화하는 것이다. 이를 위해 L1 손실과 구조 유사도(SSIM) 손실 (L{D-SSIM})을 가중치 λ 와 함께 결합한다.
[ \mathcal{L}= |V - V_{\text{render}}|1 + \lambda , L{D-SSIM}(V, V_{\text{render}}) ]
밀도 제어 메커니즘은 Gaussian 수를 사전에 고정하지 않고, 학습 중에 적응형 densification을 수행한다. 구체적으로, 뷰‑공간 위치 그래디언트 (\na
이 글은 AI가 자동 번역 및 요약한 내용입니다.