동물 부착 센서 시계열을 위한 반지도 학습 행동 발견 파이프라인
초록
본 논문은 갈매기의 3축 가속도와 GPS 속도 데이터를 이용해, 라벨이 제한된 상황에서도 알려진 행동과 새로운 행동을 동시에 식별할 수 있는 반지도 학습 파이프라인을 제안한다. 라벨된 샘플로 임베딩을 학습하고, 라벨‑가이드 K‑means로 전체 데이터를 군집화한 뒤, KDE와 HDR을 활용한 ‘포함 점수’를 통해 발견된 군집이 기존 행동에 속하는지 혹은 새로운 행동인지 정량적으로 판단한다. 실험에서는 전체 행동을 하나씩 숨겨두고도 해당 행동을 별도 군집으로 복구하며, 포함 점수가 낮을 경우 새로운 행동으로 정확히 감지함을 보였다.
상세 분석
이 연구는 동물 행동학에서 흔히 직면하는 ‘라벨 부족·클래스 불균형·미지 행동 존재’라는 세 가지 난제를 동시에 해결하려는 시도이다. 먼저, 20 Hz로 측정된 1 초 길이의 4채널(3축 가속도 + GPS 속도) 시계열을 입력으로, 라벨된 데이터만을 이용해 경량의 지도 학습 인코더를 훈련한다. 인코더의 사전 소프트맥스 로짓을 임베딩 벡터(z)로 사용함으로써, 라벨된 행동에 최적화된 표현을 얻는다. 이 단계는 데이터가 짧고 변동성이 크기 때문에 복잡한 자기지도 학습보다 안정적인 성능을 제공한다.
다음으로, 라벨‑가이드 K‑means를 적용한다. 라벨된 샘플은 고정된 클러스터 중심에 할당하고, 라벨이 없는 샘플은 전체 K + 1개의 중심(알려진 클래스 수 + 하나의 자유 클러스터) 중 가장 가까운 곳에 배정한다. 자유 클러스터는 기존 라벨이 설명하지 못하는 구조를 흡수하도록 설계돼, 잠재적인 새로운 행동을 포착한다. 이 과정은 전통적인 반지도 군집화(GCD)와 유사하지만, 임베딩 공간이 고차원일 경우 계산 비용을 줄이기 위해 2차원 t‑SNE 투영 위에서 K‑means를 수행한다는 점이 특징이다.
핵심 기여는 ‘포함 점수(containment score)’이다. 각 발견된 클러스터 p_c(z)와 알려진 클래스 p_k(z)의 확률밀도함수를 KDE로 추정하고, α‑HDR(Highest‑Density Region)을 정의한다. 점수는 두 가지 방향을 모두 고려한다: (1) 발견 클러스터의 질량이 알려진 클래스의 HDR 안에 얼마나 포함되는가, (2) 알려진 클래스의 질량이 발견 클러스터의 HDR 안에 얼마나 포함되는가. 두 비율 중 큰 값을 ‘best‑match containment score’ O_c로 채택한다. O_c가 낮으면 해당 클러스터는 기존 행동 분포와 겹치지 않으며, 이는 새로운 행동일 가능성을 강하게 시사한다. 반대로 높은 O_c는 기존 행동의 재분할 혹은 잡음에 불과함을 의미한다.
실험 설계는 두 가지 프로토콜로 구성된다. 첫 번째는 ‘withheld‑class’ 실험으로, 전체 라벨 중 하나의 행동을 의도적으로 라벨 집합에서 제외하고, 오직 비라벨 데이터에만 포함시킨다. 파이프라인은 해당 행동을 독립된 클러스터로 복구하고, O_c가 0.1 이하(임계값은 실험적으로 설정)로 낮게 측정된다. 두 번째는 ‘negative‑control’ 실험으로, 모든 행동이 라벨에 포함된 상태에서 비라벨 풀을 구성한다. 이 경우 자유 클러스터가 생성되더라도 O_c는 0.3 ~ 0.5 수준으로 높게 유지되어, 실제 새로운 행동이 없음을 정확히 판단한다. 표 1과 표 2는 각각의 실험에서 클래스별 정확도와 포함 점수를 정량적으로 보여준다.
이 접근법은 기존 이미지 중심의 GCD·NCD 연구와 달리, 짧은 시계열 데이터와 심한 클래스 불균형을 직접 다루며, 라벨이 거의 없는 현장 데이터에 바로 적용 가능하다. 또한, 포함 점수는 직관적인 해석이 가능하고, 임계값을 통해 자동화된 알림 시스템을 구축할 수 있다. 다만, KDE와 HDR을 2D 투영에 의존하기 때문에 고차원 임베딩의 복잡한 구조를 완전히 포착하지 못할 위험이 있다. 향후에는 고차원 KDE 혹은 흐름 기반 밀도 추정으로 확장하거나, 비선형 클러스터 경계 모델을 도입해 정밀도를 높일 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기