스마트홈 센서 데이터를 위한 도무스FM: 최초의 전용 파운데이션 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DomusFM은 스마트홈 이진 센서 이벤트의 희소하고 이산적인 특성을 고려해 설계된 최초의 파운데이션 모델이다. 이 모델은 토큰‑레벨 의미 속성과 시퀀스‑레벨 시간 의존성을 동시에 학습하기 위해 이중 대비 학습(dual contrastive learning) 방식을 도입한다. 경량 언어 모델에서 추출한 의미 임베딩과 전용 시계열 인코더를 결합해 다양한 공개 스마트홈 데이터셋에 사전학습한 뒤, 5 % 수준의 라벨만으로도 ADL 인식 및 다음 이벤트 예측 등 다운스트림 작업에서 기존 최첨단 방법들을 능가한다.

상세 분석

DomusFM은 스마트홈 환경에서 발생하는 이진 센서 이벤트의 고유한 특성을 두 단계의 대비 학습으로 모델링한다. 첫 번째 단계는 개별 이벤트를 “센서 종류·상태·시간·의미 속성”으로 분해하고, 경량 언어 모델(Lightweight LM)에서 추출한 의미 임베딩을 사용해 속성 간 유사성을 강화한다. 여기서 적용된 속성‑레벨 대비 손실(attribute‑level contrastive loss)은 동일 의미를 공유하는 서로 다른 센서 이벤트를 가까이, 의미가 다른 이벤트를 멀리 배치함으로써 토큰 수준의 의미적 일관성을 확보한다. 두 번째 단계는 이벤트 시퀀스를 입력으로 받아, Transformer‑ 기반의 시계열 인코더와 위치 인코딩을 결합해 장기간의 비정형 시간 간격을 포착한다. 시퀀스‑레벨 대비 손실(event‑level contrastive loss)은 동일 환경·유사 활동에서 추출된 시퀀스를 양성 샘플로, 다른 환경·활동을 음성 샘플로 삼아 시간적 의존성을 학습한다. 이중 대비 구조는 의미와 시간 두 축을 동시에 정규화함으로써, 기존의 단일 대비 혹은 단일 인코더 방식보다 표현의 풍부함과 일반화 능력을 크게 향상시킨다.

모델 아키텍처는 (1) 의미 임베딩 모듈, (2) 이진 상태 인코더, (3) 시간 패턴 인코더로 구성되며, 각 모듈은 파라미터 공유 없이 독립적으로 사전학습된다. 이후 세 모듈의 출력을 concatenate하고, 다층 퍼셉트론(MLP)으로 최종 토큰 표현을 생성한다. 이 토큰들은 Transformer 블록에 입력되어 컨텍스트‑aware 시퀀스 표현을 만든다. 사전학습 단계에서는 7개의 공개 스마트홈 데이터셋(총 수십만 이벤트)에서 무라벨 데이터만 사용했으며, 데이터셋 간 센서 배치·명명 규칙 차이를 완화하기 위해 센서 이름을 사전 정의된 어휘 집합으로 매핑하고, 이벤트 간 시간 차이를 로그 스케일로 정규화했다.

실험에서는 leave‑one‑dataset‑out(LODO) 방식으로 각 데이터셋을 테스트셋으로 남기고 나머지 6개로 사전학습·미세조정한다. 다운스트림 작업은 (a) ADL 인식, (b) 다음 이벤트 예측 두 가지이며, 라벨 비율을 5 %, 10 %, 20 %로 변동시켜 데이터 희소 상황에서도 성능을 평가했다. DomusFM은 동일 라벨 비율에서 기존 CNN/LSTM 기반 지도학습, 전이학습 기반 모델, 그리고 LLM‑prompting 기반 방법들을 모두 앞섰다. 특히 5 % 라벨만 사용할 때도 평균 F1‑score가 0.82로, 가장 높은 점수를 기록했다. 또한 모델 크기가 45 M 파라미터에 불과해 엣지 디바이스에 배포 가능함을 입증했다.

한계점으로는(1) 현재는 이진 센서와 변환된 이산 연속 센서만 다루며, 고해상도 연속 시계열(예: 전력 파형)에는 적용되지 않는다. (2) 사전학습 시 사용된 데이터셋이 주로 유럽·오세아니아 지역에 한정돼 있어, 문화·주거 형태가 다른 아시아·아프리카 환경에 대한 검증이 부족하다. (3) 대비 학습에 사용된 음성 샘플 생성 방식이 임의적이어서, 더 정교한 음성 샘플링 전략이 필요할 수 있다. 향후 연구에서는 멀티모달(음성·영상) 센서와의 융합, 지역 특화 사전학습, 그리고 대비 손실의 동적 가중치 조정 등을 탐색할 예정이다.

스마트홈 센서 데이터를 위한 도무스FM: 최초의 전용 파운데이션 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기