온라인 추론으로 계층적 잠재 구조를 학습하는 HOLMES 모델

본 논문은 학습 시스템이 일반화와 구별 사이의 균형을 맞추기 위해 필요로 하는 “계층적 잠재 구조”를 온라인 방식으로 학습할 수 있는 새로운 모델, HOLMES(Hierarchical Online Learning of Multiscale Experience Structure)를 제안한다. 기존의 평면 잠재 원인 모델은 관측을 단일 레벨의 클러스터에 할당해 온라인 추론이 가능하지만, 구조가 평면적이어서 복합적인 환경을 충분히 표현하지 못한다. 반면, 계층적 베이지안 모델(예: 중첩 중국 레스토랑 프로세스, nCRP)은 트리 형태의 다중 레벨 구조를 포착하지만, 보통 배치(batch) 방식의 오프라인 추론에 의존한다. HOLMES는 이러한 양쪽의 장점을 결합한다. 핵심 설계는 다음과 같다. 첫째, 트리 구조에 대한 사전은 깊이‑감쇠 농도 파라미터 αℓ=α·e^{−α·ℓ}를 적용한 nCRP를 사용한다. 이는 레벨이 깊어질수록 새로운 브랜치를 만들 확률을 감소시켜, 모델 용량을 자동으로 조절한다. 둘째, 각 레벨에서 “stop” 확률을 1/(1+αℓ)로 정의해, 트리 깊이가 사전에 고정되지 않으면서도 과도한 깊이 탐색을 억제한다. 셋째, 이전 타임스텝에서 사용된 노드를 재사용하도록 하는 스틱니스(stickiness) 편향을 도입해, 시간적 지속성을 반영한다. 넷째, 파티클 필터링(particle filtering) 기반의 순차적 몬테카를로 추론을 적용한다. 각 파티클은 현재 관측에 대해 nCRP 사전을 따라 경로를 샘플링하고, 잎 노드에서 베타‑베르누이 likelihood를 계산한다. 파티클 가중치는 해당 likelihood에 비례하며, 정규화 후 재샘플링을 통해 입자 소멸을 방지한다. 파티클 간에 동일한 서브트리를 발견하면 전역 노드 식별자를 공유함으로써 메모리와 연산을 절감한다. 실험은 두 종류의 합성 과제로 구성되었다. 첫 번째는 “컴포지셔널” 과제로, 2~5 레벨의 잠재 카테고리가 관측 피처를 구성하고, 최상위 레벨의 카테고리 조합이 결과(보상)를 결정한다. 여기서 평면 모델은 각 관측-결과 조합을 독립적인 클러스터로 학습하지만, HOLMES는 상위 레벨 카테고리를 공유하는 트리 구조를 형성한다. 결과적으로 두 모델 모두 예측 정확도(Outcome Prediction Accuracy)에서는 차이가 없었으며, HOLMES는 클러스터 엔트로피가 크게 낮아져 더 압축된 표현을 제공했다. 또한, 원샷 전이 실험에서 높은 레벨 라벨 하나만 제시했을 때, HOLMES는 동일 카테고리의 이전 관측들을 높은 재현율로 올바르게 식별했다. 두 번째는 “맥락 의존적·시간 중첩” 과제로, 네 가지 자극(색·형태 조합) 중 하나가 제시되고 보상은 두 개의 규칙 컨텍스트(느리게 변하는 규칙)와 그 내부에서 빠르게 변하는 보상 피처에 의해 결정된다. 평면 모델은 현재 컨텍스트와 피처만을 고려해 보상을 예측하지만, HOLMES는 트리의 상위 레벨에 느린 규칙, 하위 레벨에 빠른 규칙을 매핑함으로써 복합적인 시간적 구조를 포착한다. 실험 결과, HOLMES는 평면 모델보다 높은 예측 정확도를 달성했으며, 이는 트리 구조가 맥락 전이와 피처 변화를 동시에 모델링했기 때문이다. 전반적으로 HOLMES는 (1) 깊이‑감쇠와 확률적 정지를 통한 유연한 트리 성장, (2) 스틱니스 편향을 통한 시간적 지속성, (3) 파티클 간 전역 노드 공유를 통한 계산 효율성, (4) 순차적 몬테카를로 추론을 통한 온라인 업데이트라는 네 가지 핵심 메커니즘을 결합한다. 이러한 설계는 온라인 환경에서도 복잡한 계층적 구조를 효과적으로 학습하고, 일반화와 구별 사이의 균형을 유지하면서도 압축된 표현과 원샷 전이 능력을 제공한다는 점에서 기존 평면 모델 및 오프라인 계층 모델을 능가한다.

온라인 추론으로 계층적 잠재 구조를 학습하는 HOLMES 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기