뇌 영감을 받은 주파수와 공간 하이브리드 메모리 FreshMem으로 스트리밍 비디오 이해 혁신

뇌 영감을 받은 주파수와 공간 하이브리드 메모리 FreshMem으로 스트리밍 비디오 이해 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FreshMem은 인간의 로그 시간 인식과 기억 통합 메커니즘을 모방해, 멀티스케일 주파수 메모리(MFM)와 공간 썸네일 메모리(STM) 두 모듈을 결합한 훈련‑프리 프레임워크이다. MFM은 넘쳐나는 프레임을 DFT 기반 주파수 계수와 잔차 토큰으로 압축해 전역 “요약”을 유지하고, STM은 코사인 유사도로 에피소드를 구분해 고밀도 공간 썸네일을 생성한다. 이 설계는 Qwen2‑VL 기반 모델에 5.20%, 4.52%, 2.34%의 절대 성능 향상을 제공하며, 완전 파인튜닝된 방법들을 능가한다.

상세 분석

FreshMem은 스트리밍 비디오 이해라는 새로운 패러다임에 맞춰, 인간 뇌의 두 가지 핵심 메커니즘—로그 시간 인식과 Sharp‑Wave Ripple(SWR) 기반 기억 통합—을 수학적으로 모델링한다. 첫 번째 모듈인 Multi‑scale Frequency Memory(MFM)는 기존의 슬라이딩 윈도우 방식에 주파수 도메인 압축을 추가한다. 프레임이 윈도우를 초과하면, 각 프레임을 복소수 지수 함수 (e^{-j\omega_k t}) 와 곱해 주파수 계수 (C_t


댓글 및 학술 토론

Loading comments...

의견 남기기