신경 스타일 표현을 활용한 대규모 예술 양식 분류 연구

본 논문은 예술 작품의 ‘양식’이라는 인간 중심의 미학적 개념을 컴퓨터가 인식하도록 하는 방법을 제시한다. 연구 배경으로는 Gatys 등(2015)이 제안한 ‘신경 스타일 전이’ 알고리즘이 이미지의 저수준 피처 상관관계(Gram 행렬)를 통해 스타일 정보를 효과적으로 캡처한다는 점을 들었다. 저자는 이 스타일 표현을 대규모 양식 분류에 적용해 그 효용성을 검증하고자 한다. 데이터는 위키아트와 Kaggle에서 수집한 76,449장의 회화 이미지이며, 70개의 양식 라벨(예: 인상주의, 바로크 등)을 사용한다. 라벨당 최소 100장의 샘플을 확보해 클래스 불균형 문제를 완화했지만, 여전히 일부 라벨은 다른 라벨에 비해 샘플 수가 적어 분류 난이도가 높다. 데이터는 10 %를 검증용으로 따로 보관하였다. 실험은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 기존 이미지 분류 모델을 기준선으로 삼는다. 3×3 커널과 Leaky ReLU를 사용한 얕은 CNN을 처음부터 학습시켰을 때 Top‑1 정확도는 27.47 %에 머물렀다. 이어서 ImageNet‑사전 학습된 50‑layer ResNet을 파인튜닝했으며, 이 경우 정확도가 36.99 %로 크게 상승한다. 이는 사전 학습된 객체 인식 모델이 저수준 텍스처와 고수준 의미 정보를 모두 활용해 양식 구분에 유리함을 보여준다. 두 번째 단계에서는 ‘신경 스타일’ 표현을 직접 활용한다. VGG‑19 네트워크의 다섯 개 레이어(ReLU1‑ReLU5)에서 피처 맵을 추출하고, 각 레이어별 Gram 행렬을 계산한다. Gram 행렬은 채널 간 상관관계를 나타내며, 스타일 정보를 압축한다. 대칭성을 고려해 행렬을 벡터화하면 이미지당 304,416개의 차원을 갖는 거대한 특징 벡터가 된다. 전체 스타일 벡터에 대해 단일 선형 레이어(Adam 최적화, 55 epoch)를 학습시킨 결과 Top‑1 정확도는 13.21 %에 불과했다. 이는 고차원 벡터가 선형 분리 가능성이 낮고, 차원 축소 없이 그대로 사용하면 과적합 위험이 크다는 점을 시사한다. 다음으로 각 레이어별 Gram 행렬을 독립적으로 입력으로 하는 랜덤 포레스트 모델을 구축했다. 결과는 레이어에 따라 크게 차이가 났다. 초기 레이어인 ReLU1, ReLU2, ReLU3에서 각각 27.84 %, 28.97 %, 33.46 %의 정확도를 기록했으며, 특히 ReLU3이 가장 높은 성능을 보였다. 이는 양식 구분에 가장 중요한 정보가 저수준 텍스처와 색상 패턴에 집중돼 있음을 의미한다. 반면 깊은 레이어인 ReLU4와 ReLU5는 각각 9.79 %와 10.18 %에 머물러, 고수준 피처가 양식 구분에 크게 기여하지 않음을 확인했다. 차원 축소 실험에서는 PCA를 적용해 90 % 분산을 유지했을 때 정확도가 17 % 수준으로 급감했으며, 이는 데이터가 비선형 구조를 가지고 있어 선형 차원 축소가 정보 손실을 초래함을 보여준다. 또한 데이터 정규화가 성능에 미치는 영향도 미미했다. 시각화 측면에서는 20,000장의 무작위 샘플에 대해 Barnes‑Hut t‑SNE를 적용해 각 레이어의 Gram 행렬을 2D 공간에 투영했다. 초기 레이어의 시각화는 양식 간 군집이 비교적 뚜렷하게 구분되는 반면, 깊은 레이어는 군집이 흐릿해지는 경향을 보였다. 이는 정량적 결과와 일관된다. 결론적으로, ‘신경 스타일’ 표현은 양식 분류에 일정 수준의 예측력을 제공하지만, 현재의 VGG‑19 기반 Gram 행렬만으로는 사전 학습된 ResNet을 파인튜닝한 경우를 능가하기 어렵다. 특히 저수준 레이어의 Gram 행렬이 가장 유용하다는 점은 향후 모델 설계에 중요한 힌트를 제공한다. 저자는 향후 연구에서 다중 스케일 Gram 행렬 결합, 비선형 차원 축소 기법, 혹은 Transformer 기반의 스타일 디코더를 도입해 표현력을 강화하고, 더 큰 규모와 더 다양하게 라벨링된 데이터셋을 활용해 일반화 성능을 높이는 방향을 제시한다.

신경 스타일 표현을 활용한 대규모 예술 양식 분류 연구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기