사용자 로그 기반 LLM 지속학습 프레임워크 UNO

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

UNO는 실사용 로그를 반구조화된 규칙·선호쌍으로 정제하고, 쿼리·피드백 기반 클러스터링과 인지 격차 측정을 통해 ‘주요 경험 모듈’과 ‘반사 경험 모듈’로 구분한다. 주요 모듈은 LoRA 어댑터로 직접 생성하고, 반사 모듈은 비판 어댑터로 초안 수정 제안을 제공한다. 오프‑폴리시 위험을 최소화하면서 노이즈에 강인한 지속학습을 구현해 RAG·메모리 기반 방법들을 크게 앞선다.

상세 분석

UNO는 LLM 시스템이 실서비스에서 축적되는 방대한 사용자 로그를 효과적으로 활용하도록 설계된 최초의 통합 최적화 프레임워크이다. 핵심 아이디어는 로그를 ‘규칙 집합’과 ‘선호 페어’라는 반구조화된 형태로 변환한 뒤, 동일 쿼리·피드백 패턴을 공유하는 로그들을 계층적 군집화(agglomerative clustering)한다는 점이다. 이렇게 형성된 클러스터마다 ‘인지 격차(cognitive gap)’를 정량화한다. 인지 격차는 현재 베이스 LLM이 해당 클러스터의 규칙·피드백을 얼마나 잘 이해하고 적용할 수 있는지를 측정하는 메트릭으로, 낮을수록 기존 모델과 로그 간 지식 차이가 작다는 의미이다. 격차가 작고 학습된 LoRA 어댑터가 시뮬레이션 검증을 통과하면 해당 클러스터는 ‘주요 경험(Primary Experience)’으로 분류되어, Expert LoRA가 직접 답변을 생성한다. 반대로 격차가 크거나 검증에 실패하면 ‘반사 경험(Reflective Experience)’으로 전환되어, Critic LoRA가 베이스 LLM의 초안을 비판하고 구체적인 수정 제안을 제공한다. 이 두 모듈은 파라미터 효율성을 위해 LoRA와 같은 경량 어댑터를 사용하므로, 대규모 모델을 직접 파인튜닝하는 비용을 크게 절감한다. 또한, 로그가 과거 정책(오프‑폴리시) 하에 수집된 경우에도 베이스 모델 파라미터를 직접 변경하지 않음으로써 정책 불일치에 따른 위험을 최소화한다. 실험에서는 다국어·다도메인 연속학습 벤치마크인 MemoryBench을 활용해, RAG와 기존 메모리 기반 접근법 대비 정확도·응답 시간 모두에서 현저히 우수한 성능을 보였다. 특히, 노이즈가 많은 로그에서도 성능 저하가 거의 없으며, 규칙 기반 시뮬레이션 검증이 모듈 품질을 효과적으로 보증한다는 점이 주목할 만하다. UNO는 LLM을 ‘정적 사전학습 모델’에서 ‘지속적으로 진화하는 서비스형 AI’로 전환시키는 실용적 로드맵을 제시한다.

사용자 로그 기반 LLM 지속학습 프레임워크 UNO

초록

상세 분석

댓글 및 학술 토론

의견 남기기