피드포워드 신경망 구조가 손실면의 형태에 미치는 영향

본 논문은 피드포워드 신경망(Feed‑Forward Neural Network, FFNN)의 구조적 변수, 즉 은닉층의 폭(히든 뉴런 수)과 깊이(히든 레이어 수)가 손실 함수의 모달리티(지역 최소점·전역 최소점·안장점 등)와 탐색 가능성에 어떤 영향을 미치는지를 체계적으로 분석한다. 연구 배경으로는 최근 과잉 파라미터화(over‑parameterization)된 신경망이 고에러 지역 최소점을 거의 갖지 않으며, 오히려 학습이 더 쉬워진다는 이론적·실험적 결과가 존재한다는 점을 들었다. 그러나 이러한 현상이 구체적으로 폭과 깊이에 의해 어떻게 달라지는지는 아직 명확히 규명되지 않았다. 이를 해결하기 위해 저자들은 피트니스 랜드스케이프 분석(Fitness Landscape Analysis, FLA) 기법을 도입했다. FLA는 최적화 문제의 탐색 공간을 다차원 샘플링하고, 각 샘플에 대한 목표 함수값과 그라디언트 크기를 측정해 ‘landscape’ 특성을 추정한다. 특히, 손실‑그라디언트(l‑g) 클라우드라는 2차원 시각화 도구를 사용해, 손실값(가로축)과 그라디언트 크기(세로축)를 플롯함으로써 정지점(gradient=0)들의 분포와 특성을 직관적으로 파악한다. 정지점이 발견되면 Hessian 행렬을 계산해 고유값을 분석함으로써 해당 점이 최소점, 최대점, 혹은 안장점인지 구분한다. 실험은 두 개의 대표적인 분류 문제를 사용했다. 첫 번째는 XOR 문제로, 입력 차원이 2, 출력이 1인 매우 작은 데이터셋이다. 두 번째는 MNIST 손글씨 데이터셋으로, 784 차원의 입력과 10 클래스 출력을 가진 대규모 문제이다. 두 데이터셋 모두 동일한 실험 프로토콜을 적용했으며, 은닉층의 최소 뉴런 수를 각각 h=2 (XOR)와 h=10 (MNIST)으로 설정하고, 이를 2배(2h)와 10배(10h)로 확대했다. 깊이는 1, 2, 3 레이어로 변형했으며, 각 레이어는 동일한 폭을 유지하도록 설계했다. 활성화 함수는 은닉층에 ELU, 출력층에는 이진 문제는 sigmoid, 다중 클래스 문제는 softmax를 사용했으며, 손실은 로그우도(log‑likelihood)로 정의했다. 샘플링 방법은 ‘progressive gradient walk’이다. 이 방법은 현재 위치의 그라디언트를 계산하고, 각 차원별로 0/1 마스크를 만든 뒤, 마스크에 따라 무작위 스텝 크기(ε)를 부호화하여 다음 위치를 결정한다. ε는 초기화 범위(

피드포워드 신경망 구조가 손실면의 형태에 미치는 영향

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기