부분적으로 숨겨진 판별 모델을 이용한 인간 활동 학습 및 구분
초록
본 논문은 라벨이 일부만 제공되는 상황에서 조건부 확률 모델인 CRF와 MEMM을 활용해 인간 활동을 학습·분할하는 반감독 학습 방법을 제안한다. 실험 결과, 라벨이 부족한 경우에도 기존의 부분적으로 숨겨진 HMM보다 높은 정확도를 보였다.
상세 분석
이 연구는 인간 활동 인식에서 라벨링 비용이 높은 현실적 제약을 고려해, 부분적으로 숨겨진(Partially Hidden) 판별 모델을 설계하였다. 기존의 생성 모델인 HMM, HHMM, AHMM 등은 관측 데이터 x와 라벨 y의 결합분포 p(y, x)를 모델링하므로, 복잡한 관측 의존성을 포착하기 위해서는 p(x|y) 를 단순화해야 하는 한계가 있다. 반면 조건부 모델인 CRF와 MEMM은 직접 p(y|x)를 추정하므로, 특징 설계에 대한 제약이 크게 완화된다. 논문에서는 두 가지 판별 모델을 부분적으로 숨겨진 형태로 확장하였다.
CRF의 경우, 라벨 시퀀스 y를 가시 라벨 v와 숨김 라벨 h로 분리하고, p(v|x; λ)=∑ₕ p(v,h|x; λ) 로 정의한다. 이때 전체 라벨 시퀀스는 체인 구조를 유지하므로 전방‑후방 알고리즘을 이용해 정규화 상수 Z(x)와 마진을 효율적으로 계산할 수 있다. MEMM은 전통적인 로컬 정규화 모델을 확장해, 모든 상태에 대해 동일한 파라미터 집합 λ를 공유하도록 설계하였다. 관측 컨텍스트 Ωₜ를 슬라이딩 윈도우로 정의함으로써 현재 상태 yₜ가 과거·미래 관측에 의존하도록 하였으며, 이는 활동 전이의 시간적 연속성을 자연스럽게 반영한다.
학습 단계에서는 라벨이 부분적으로만 알려진 상황을 EM 프레임워크로 처리한다. E‑step에서는 현재 파라미터 λʲ 하에서 숨김 라벨 h의 사후분포 p(h|v,x; λʲ)를 계산하고, M‑step에서는 정규화된 로그우도 하한 Q(λʲ, λ) 를 최대화한다. CRF는 로그선형 구조이므로 M‑step에서 닫힌 형태 해가 없으며, 뉴턴‑유사 최적화(예: L‑BFGS)를 적용한다. MEMM도 유사하게 기대값을 이용해 파라미터 업데이트를 수행한다. 정규화 항 ‖λ‖²/2σ² 를 추가해 과적합을 방지한다.
실험은 비디오 감시 환경에서 4 × 6 m² 크기의 식당·주방을 두 대의 정적 카메라로 촬영한 데이터를 사용하였다. 활동 라벨은 12개의 원시 이동(예: “문→냉장고”)으로 정의하고, 세 가지 시나리오(짧은 식사, 간식, 일반 식사)로 구분하였다. 라벨의 가시 비율을 100 %에서 10 %까지 단계적으로 감소시키며 CRF, MEMM, 그리고 기존의 부분적으로 숨겨진 HMM(PHMM)을 비교하였다. 결과는 라벨이 충분히 제공될 때는 세 모델 모두 높은 정확도를 보였지만, 라벨 비율이 30 % 이하로 떨어지면 PHMM보다 CRF와 MEMM이 평균 8~12 % 높은 F1 점수를 기록했다. 특히 컨텍스트 윈도우를 활용한 MEMM은 복잡한 전이 패턴을 잘 포착해, 라벨이 거의 없는 상황에서도 비교적 안정적인 성능을 유지했다.
핵심 인사이트는 다음과 같다. 첫째, 조건부 모델은 관측 특징을 자유롭게 설계할 수 있어, 다중 센서 스트림이나 비선형 관계를 효과적으로 활용한다. 둘째, 부분적으로 숨겨진 라벨 구조를 EM과 결합하면, 제한된 라벨링 비용으로도 충분히 강건한 학습이 가능하다. 셋째, MEMM의 파라미터 공유와 컨텍스트 윈도우 설계는 시간적 의존성을 모델링하는 데 유리하며, CRF와 비교해 구현 복잡도가 낮다. 넷째, 생성 모델인 PHMM은 라벨이 전혀 없을 때 p(x)를 모델링할 수 있는 장점이 있지만, 라벨이 일부라도 제공될 경우 판별 모델이 더 높은 예측 정확도를 제공한다.
이러한 결과는 스마트 환경, 로봇 어시스턴스, 비디오 감시 등 라벨링 비용이 높은 도메인에서 반감독 학습을 통한 활동 인식 시스템 구축에 실질적인 가치를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기