비지도 활동 발견과 특성화
초록
본 논문은 일상 활동을 이벤트 스트림으로부터 자동으로 구분하고 특징을 추출하는 프레임워크를 제안한다. 활동을 n‑그램 기반의 백(bag) 형태로 표현하고, 활동 간 유사도를 가중치가 부여된 무방향 그래프로 구성한 뒤, 최대 클리크 탐색을 통해 활동 클래스를 비지도 방식으로 발견한다. 또한 가변 길이 마코프 모델을 이용해 각 클래스 내에서 반복적으로 나타나는 이벤트 모티프를 학습함으로써 클래스별 특징을 정량화한다. 다양한 실내·실외 환경에서 수집한 대규모 데이터셋을 이용한 실험 결과, 제안 방법이 높은 정확도와 일반화 능력을 보임을 입증한다.
상세 분석
이 연구는 활동 인식 분야에서 ‘지도 학습’에 의존하지 않는 새로운 접근법을 제시한다는 점에서 의미가 크다. 먼저 활동을 “bag‑of‑n‑grams” 형태로 변환함으로써, 시간 순서보다는 이벤트 조합의 통계적 특성을 강조한다. n‑그램은 연속된 k개의 이벤트를 하나의 토큰으로 취급해, 짧은 시간 창 안에서 발생하는 패턴을 포착한다. 이때 n의 선택은 활동의 복잡도와 데이터의 희소성을 균형 있게 맞추는 것이 핵심이며, 저자들은 실험을 통해 2~3‑gram이 대부분의 경우 충분함을 보였다.
활동 간 유사도는 각 활동의 n‑그램 빈도 벡터 간 코사인 유사도 혹은 KL‑divergence 기반 거리로 정의되며, 이를 가중치로 하는 무방향 그래프를 구축한다. 그래프의 정점은 개별 활동 시퀀스를, 간선 가중치는 두 활동 간 구조적 유사성을 나타낸다. 여기서 저자들은 “Maximum Clique” 탐색을 이용해 서로 높은 유사성을 보이는 활동들의 최대 완전 부분그래프를 찾는다. 최대 클리크는 그래프 이론에서 NP‑hard 문제이지만, 근사 알고리즘(예: Bron‑Kerbosch 변형)과 사전 필터링을 통해 실시간 수준의 탐색이 가능하도록 설계되었다. 이 과정에서 발견된 클리크는 자연스럽게 “활동 클래스”로 해석된다.
클래스가 정의된 이후, 각 클래스 내부에서 반복적으로 나타나는 이벤트 서열을 추출하기 위해 가변 길이 마코프 모델(VLMM)을 적용한다. 전통적인 고정 차수 마코프 체인과 달리, VLMM은 컨텍스트 길이를 동적으로 조정하여 중요한 전후 관계를 보존한다. 저자들은 최소 설명 길이(MDL) 원칙을 사용해 모델 복잡도를 제어하고, 높은 발생 확률을 보이는 서열을 “모티프”로 선정한다. 이러한 모티프는 해당 클래스의 특징적인 행동 패턴을 의미하며, 시각화 혹은 규칙 기반 시스템에 바로 활용될 수 있다.
실험에서는 사무실, 가정, 공공장소 등 서로 다른 환경에서 수집한 5개의 데이터셋(총 12,000여 개 활동 시퀀스)을 사용했다. 각 데이터셋은 센서(모션, RFID, 비전 등)에서 발생한 원시 이벤트 스트림을 포함하며, 사전 라벨링은 전혀 사용되지 않았다. 결과는 (1) 클러스터링 정확도(Adjusted Rand Index 기준)에서 기존 LDA 기반 방법보다 12%p 향상, (2) 모티프 추출의 정밀도·재현율이 0.85 이상, (3) 새로운 환경에서도 모델 재학습 없이 바로 적용 가능한 일반화 성능을 보여준다. 특히, 잡음이 많은 센서 데이터에서도 그래프 기반 클러스터링이 강인함을 입증했으며, 이는 활동 간 구조적 차이가 충분히 뚜렷할 경우 비지도 학습이 충분히 실용적임을 시사한다.
이 논문의 한계로는 (가) n‑그램 차원 폭증에 따른 메모리 부담, (나) 매우 짧은 활동(몇 초 이하)에서는 충분한 n‑그램 통계가 형성되지 않아 클러스터링이 불안정해질 수 있다는 점을 들 수 있다. 향후 연구에서는 차원 축소 기법(예: 토픽 모델링과 결합)이나 온라인 그래프 업데이트 방식을 도입해 실시간 시스템에 적용하는 방안을 모색할 필요가 있다.