연속 토큰 표현을 위한 분리형 아키텍처

연속 토큰 표현을 위한 분리형 아키텍처
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Leviathan은 기존의 고정된 임베딩 테이블을 연속적인 토큰 생성기로 대체하여, 작은 규모 언어 모델에서 어휘 매개변수의 비중을 크게 줄인다. 동일 파라미터 예산 하에서 Pile 데이터셋을 이용한 실험 결과, Leviathan은 표준 LLaMA‑style 모델보다 검증 손실이 낮으며, 효과적인 파라미터 용량이 1.47배에서 2.11배까지 증가한다는 점을 보여준다.

상세 분석

본 논문은 소규모 언어 모델(SLM)에서 어휘 임베딩 행렬이 전체 파라미터의 절반 이상을 차지한다는 문제점을 지적한다. 기존의 해결책으로는 임베딩과 출력 헤드의 가중치를 공유(tie)하거나, ALBERT와 같은 저랭크 분해 방식이 있었지만, 이들 방법은 여전히 어휘 크기 V에 선형적으로 의존하거나 입력과 출력 공간을 동일하게 강제한다는 한계가 있다. Leviathan은 이러한 제약을 완전히 탈피한다. 핵심 아이디어는 토큰 인덱스를 좌표계로 매핑하고, 다차원 B‑spline 기반의 연속 함수 G(i) = e_i를 통해 임베딩을 생성하는 것이다.

구현 단계는 크게 세 부분으로 나뉜다. 첫째, 토큰 인덱스를 k‑차원 좌표(grid)로 변환하고, 각 차원마다 공유 코드북 C_r을 조회해 seed 벡터 z(i)를 만든다. 이는 O(k √V) 파라미터만 필요해 기존 O(V·D) 대비 압축 효율이 매우 높다. 둘째, 얻어진 seed를 정규화·시그모이드로


댓글 및 학술 토론

Loading comments...

의견 남기기