공통 변수 학습과 불변 표현 학습을 위한 시암쌍 신경망
초록
본 논문은 다중 센서가 동시에 측정한 데이터를 이용해 공통 변수를 추출하고, 센서별 특유의 잡음을 제거하는 방법으로 시암쌍(Siamese) 신경망을 제안한다. 동일 시점에 기록된 쌍을 ‘양성’, 다른 시점의 조합을 ‘음성’으로 정의해 학습함으로써, 임베딩 공간에서 공통 변수에 대한 불변 표현을 얻는다. 실험은 합성 데이터와 이미지 예시를 통해 제시된다.
상세 분석
본 연구는 기존의 지도학습이나 모델 기반 신호 처리와 달리, 라벨이나 사전 모델이 전혀 없는 상황에서 공통 변수를 학습하는 프레임워크를 제시한다. 핵심 아이디어는 “동시성(coincidence)”을 활용해 두 센서가 같은 잠재 변수 X를 동시에 관측했을 때, 그 쌍을 양성(pair)으로, 서로 다른 X 값을 가진 조합을 음성(pair)으로 만든다. 이를 통해 시암쌍 네트워크는 두 입력 스트림을 각각 f₁, f₂라는 함수(신경망)로 매핑하고, 양성 쌍에 대해서는 f₁(s¹)=f₂(s²) 를 강제, 음성 쌍에 대해서는 f₁(s¹)≠f₂(s²) 를 유도한다. 손실함수는 양성 쌍에 대해 유클리드 거리의 제곱을 최소화하고, 음성 쌍에 대해 거리를 크게 만들도록 설계된 대조적(loss) 형태이며, L2 정규화가 포함된다.
수학적으로는 (X,Y,Z)∼πₓ,y,z 로 정의된 잠재 변수 삼중항을 두 센서 함수 g₁,g₂가 각각 (X,Y)와 (X,Z)를 관측한다. g₁,g₂는 bi‑Lipschitz 가정하에 역함수가 존재하므로, 이론적으로 X를 복원하는 함수 φ가 존재한다. 하지만 φ를 직접 구하는 대신, f₁,f₂가 X에 대해 동일한 값(스케일·비선형 변환 허용)만을 출력하도록 학습한다. 이는 X에 대한 동등류(equivalence class)를 정의하고, 임베딩 공간이 그 동등류의 몫공간(quotient space)과 동형임을 의미한다.
또한, 트리비얼 솔루션(모든 입력을 동일한 상수값으로 매핑) 방지를 위해 음성 쌍을 활용한다. 음성 쌍은 실제로는 무작위 재배열을 통해 생성되며, 충분히 큰 데이터셋에서는 서로 다른 X 값을 가질 확률이 높다. 실험에서는 합성 데이터에서 X가 회전 각도, Y와 Z가 각각 센서 고유의 변형(조명, 배경)인 경우를 설정하고, 시암쌍 네트워크가 X만을 보존하는 2‑D 임베딩을 성공적으로 학습함을 보인다.
이 접근법의 장점은 (1) 라벨이 전혀 필요 없으며, (2) 센서 간 동시 측정만 있으면 공통 변수를 자동으로 추출한다는 점, (3) 학습된 임베딩이 다양한 downstream task(클러스터링, 차원 축소, 시계열 분석 등)에 바로 활용 가능하다는 점이다. 한계로는 음성 쌍 생성 시 완전한 독립성을 보장하기 어려워, 특히 X 변화가 느리거나 센서 간 동기화가 부정확한 경우 성능 저하가 예상된다. 또한, g₁,g₂가 비선형이지만 bi‑Lipschitz 가정이 깨질 경우 이론적 보장이 약해진다. 향후 연구는 음성 쌍을 보다 정교하게 구성하는 방법, 다중(>2) 센서 확장, 그리고 실제 물리적 시스템(뇌파, 멀티모달 의료 영상 등)에 적용한 검증이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기