뇌를 닮은 AI 비전, 설계의 비밀을 찾아서
초록
본 연구는 인간 시각 시스템과 유사한 특성을 갖는 딥뉴럴네트워크(DNN) 개발을 위해 네트워크 아키텍처, 훈련 데이터셋, 훈련 방식 중 어떤 설계 원칙이 가장 큰 영향을 미치는지 체계적으로 분석했다. 30개 이상의 최신 모델을 다양한 ‘뇌 유사성’ 지표로 평가한 결과, 네트워크 아키텍처의 선택이 데이터셋이나 훈련 방식보다 뇌와의 정렬(alignment)에 훨씬 더 강한 영향을 미치는 것으로 나타났다. 또한 단일 모델이 모든 측면에서 뇌를 가장 잘 모방하지는 않아, 인간 수준의 인공 시각을 달성하기 위해서는 통합적 접근이 필요함을 시사한다.
상세 분석
이 연구의 핵심 기술적 기여는 뇌와 AI 모델의 유사성을 평가하는 방법론에 있다. 기존 연구가 자연 이미지에 대한 신경 반응 예측 정확도 같은 ‘정량적’ 지표에 집중했다면, 본 연구는 ‘거울 혼동’, ‘웨버의 법칙’, ‘대처 효과(Thatcher effect)’ 등 인간 인지에서 관찰되는 ‘정성적 현상’의 출현 여부를 평가했다. 이는 단순한 수치 비교를 넘어, 모델이 뇌의 계산 원리를 본질적으로 따르고 있는지 해석 가능한 통찰을 제공한다.
분석 결과, 아키텍처의 영향력이 가장 컸다. 합성곱 신경망(CNN)과 비전 트랜스포머(ViT)는 공통적으로 객체 정규화(Object Normalization), 장면 부조화(Scene Incongruence) 같은 몇 가지 기본 특성은 보였으나, 세부 패턴에서 차이를 드러냈다. CNN은 형태/질감 선택적 반응의 상관관계(Correlated Sparseness)와 웨버의 법칙(Weber’s Law) 준수에서 ViT보다 뇌에 더 가까웠다. 이는 CNN의 계층적·국소적 특징 추출 방식이 뇌의 초기 시각 피질 처리와 유사한 귀결일 수 있다. 반면, 순수 주의 메커니즘을 사용하는 Vanilla ViT는 전역 형태 처리(Global Shape Processing)에서 두각을 나타냈는데, 이는 ViT의 전역적 맥락 통합 능력이 뇌의 고수준 형태 인식과 관련될 가능성을 시사한다.
흥미롭게도 Swin, DeiT 등 후기 ViT 변종들은 CNN과 유사한 귀납적 편향(inductive bias)을 수용하면서 이러한 장점을 일부 잃었다. 이는 아키텍처의 ‘순수성’이 특정 뇌 유사 특성 발현에 중요할 수 있음을 보여준다. 한편, 3D 처리, 표면 불변성(Surface Invariance), 상대적 크기 부호화 등 여러 고수준 특성은 모든 모델에서 결여되어 있었는데, 이는 현재의 2D 이미지 분류 중심 훈련 패러다임의 근본적 한계를 지적한다.
데이터셋과 훈련 방식의 영향은 상대적으로 제한적이었으나, 무시할 수 없다. 예를 들어, 얼굴 특화 데이터로 훈련된 네트워크는 당연히 얼굴 처리 뇌 영역과의 유사성이 높았으며, 자기지도 학습 방식도 특정 표현 특성에 영향을 미쳤다. 결론적으로, 인간 수준의 강건하고 일반화된 인공 시각을 만들기 위해서는 (1)뇌의 계산 원리를 반영한 아키텍처 혁신, (2)현실 세계의 물리적·기하학적 속성을 포괄하는 데이터, (3)단순 분류를 넘는 풍부한 학습 과제의 종합적 고려가 필요함을 이 연구는 강력하게 주장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기