계층형 프로토타입으로 해석 가능한 이미지 인식

**1. 서론 및 연구 동기** 인간은 사물을 인식할 때 ‘동물’, ‘포유류’, ‘고양이’와 같은 계층적 개념을 활용한다. 이러한 인지 구조는 정보 획득 비용과 정확도 사이의 트레이드오프를 자연스럽게 조절한다. 기존의 프로토타입 기반 해석 가능한 모델은 이미지의 부분 특징을 학습해 인간이 이해할 수 있는 설명을 제공하지만, 클래스 간의 계층적 관계를 활용하지 못한다. 따라서 새로운 세부 클래스가 등장했을 때 상위 레벨에서만 의미 있는 분류가 가능한 모델이 필요하다. 본 논문은 이러한 요구를 충족시키기 위해 ‘계층형 프로토타입 네트워크(HPnet)’를 제안한다. **2. 관련 연구** - *해석 가능한 모델*: Saliency map, Class‑activation map 등 사후 해석 방법과 달리, Branson et al., Li et al., Chen et al. 등은 학습 단계에서 직접 프로토타입을 도입한다. - *계층적 분류*: SVM, 베이지안 그래프, CNN‑RNN 등 다양한 접근법이 존재하지만, 대부분은 프로토타입을 사용하지 않는다. - *새로운 클래스 탐지*: OOD 탐지, Novelty detection 등은 로그잇 기반 혹은 통계적 방법을 주로 사용한다. HPnet은 위 세 분야를 통합해, 프로토타입을 계층적으로 배치하고, 새로운 클래스 탐지를 계층 구조에 맞춰 수행한다. **3. 문제 정의** 세 가지 문제를 동시에 해결한다. 1) **해석 가능성**: 이미지가 인간이 이해할 수 있는 부분 특징(프로토타입)으로 설명되어야 함. 2) **계층적 분류**: 사전 정의된 트리 구조 Y(0)…Y(K)에서 각 레벨별 확률 P(Y(k+1)|Y(k),X)를 예측. 3) **새로운 클래스 탐지**: 상위 레벨에 속하지만 기존 하위 클래스에 속하지 않는 경우를 ‘novel’로 식별. **4. 모델 설계** - **기본 CNN**: VGG‑16의 FC와 최종 분류기를 제거하고, 1×1 컨볼루션 두 층을 추가해 차원을 512→32로 축소, 시그모이드 활성화로 패치 벡터를

계층형 프로토타입으로 해석 가능한 이미지 인식

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기