온디바이스 테스트 타임 적응 벤치마크
초록
본 논문은 모바일·엣지 디바이스의 제한된 자원과 사용 환경을 고려한 테스트‑타임 적응(TTA) 벤치마크인 BoTTA를 제안한다. 제한된 샘플 수, 불완전한 클래스 커버리지, 다양한 및 중첩된 도메인 변형 등 네 가지 실제 제약을 정의하고, CIFAR‑10C와 PACS 데이터셋을 이용해 최신 TTA 알고리즘을 평가한다. 또한 주기적 적응 방식을 도입해 연속 적응과의 차이를 분석하고, 라즈베리파이 4B와 Jetson Orin Nano에서 메모리·CPU 사용량 등 시스템 수준 지표를 측정한다. 실험 결과, SHOT은 512 샘플에서 정확도를 2.25배 향상시키지만 메모리 사용량이 1.08배 증가하는 등, 많은 TTA 기법이 소량 데이터와 클래스 불균형에 취약함을 보여준다. BoTTA는 이러한 인사이트를 바탕으로 실제 현장 적용 시 고려해야 할 가이드라인을 제공한다.
상세 분석
BoTTA는 기존 TTA 연구가 주로 알고리즘 복잡도·도메인 다양성에 초점을 맞춘 반면, 모바일·엣지 환경에서의 실질적인 제약을 체계적으로 검증한다는 점에서 차별화된다. 네 가지 핵심 시나리오는(1) 제한된 적응 샘플 수, (2) 클래스 노출 부족, (3) 다양한 변형(노이즈·블러·색상 변형 등) 적용, (4) 단일 이미지 내 중첩 변형으로 구성된다. 특히, 시나리오 (4)는 기존 벤치마크에서 거의 다루어지지 않았으며, 실제 카메라 촬영 시 발생하는 복합 왜곡을 모사한다.
평가에 사용된 모델은 ResNet‑26, ResNet‑50, Vision Transformer(ViT) 등 대표적인 아키텍처이며, 각 모델에 대해 대표적인 TTA 기법인 Entropy Minimization, SHOT, SAR, SoTTA, T3A, OFTTA 등을 적용하였다. 실험 결과는 다음과 같다. 첫째, 샘플 수가 100개 이하로 감소하면 대부분의 TTA 방법이 성능 향상을 거의 보이지 않는다. 이는 엔트로피 최소화 기반 방법이 충분한 통계적 신호를 확보하지 못해 파라미터 업데이트가 불안정해지는 현상으로 해석된다. 둘째, 클래스 커버리지가 50 % 이하로 제한될 경우, 특히 pseudo‑label 기반 SHOT과 SoTTA가 큰 성능 저하를 겪는다. 이는 라벨 추정 오류가 증폭되어 모델이 잘못된 방향으로 수렴하기 때문이다. 셋째, 변형 종류와 강도가 다양할수록 SHOT과 SAR이 비교적 견고하게 유지되지만, T3A와 OFTTA는 특정 변형(예: 고강도 가우시안 노이즈)에서 급격히 성능이 떨어진다. 이는 이들 방법이 사전 정의된 프로토타입에 크게 의존하기 때문으로, 변형이 프로토타입과 멀어질 경우 적응 효과가 감소한다. 넷째, 중첩 변형이 존재하는 경우, 연속적인 적응보다 주기적 적응이 메모리와 연산량 측면에서 효율적이며, 정확도 손실도 최소화된다. 실제 디바이스 실험에서 라즈베리파이 4B는 SHOT 적용 시 피크 메모리가 1.08 ×, CPU 사용률이 23 % 상승했으며, Jetson Orin Nano에서는 1.12 × 메모리 증가와 18 % CPU 부하가 관찰되었다.
이러한 결과는 TTA 알고리즘 설계 시(1) 적은 샘플에서도 안정적인 업데이트를 보장하는 메타‑학습 또는 베이지안 접근법, (2) 클래스 불균형에 강인한 pseudo‑label 정제 메커니즘, (3) 변형 다양성을 사전에 모델에 내재화하는 데이터 증강 전략, (4) 주기적 적응 스케줄링과 경량화된 파라미터 업데이트가 필요함을 시사한다. BoTTA는 이러한 설계 방향을 제시함과 동시에, 실제 디바이스에서의 메모리·전력·실시간 요구사항을 정량화함으로써 연구와 산업 현장 사이의 격차를 메우는 실용적인 프레임워크이다.
댓글 및 학술 토론
Loading comments...
의견 남기기