온디바이스 LLM을 위한 하드웨어‑소프트웨어 공동 설계 스케일링 법칙

온디바이스 LLM을 위한 하드웨어‑소프트웨어 공동 설계 스케일링 법칙
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 온디바이스 대형 언어 모델(LLM) 배치를 위해 모델 정확도와 추론 지연을 동시에 최적화하는 하드웨어‑소프트웨어 공동 설계 프레임워크를 제시한다. 모델 손실을 아키텍처 하이퍼파라미터의 함수로 표현한 스케일링 법칙과, Roofline 모델을 이용한 지연 예측을 결합해 1,942개의 후보 아키텍처를 NVIDIA Jetson Orin에서 평가하였다. 170개의 모델을 10 B 토큰씩 학습해 손실 스케일링을 피팅하고, 이를 지연 모델과 연계해 정확도‑지연 파레토 프론티어를 도출하였다. 동일 지연 조건에서 기존 Qwen2.5‑0.5B 대비 19.42 % 낮은 퍼플렉시티를 달성했으며, 설계 시간도 수개월에서 수일로 단축하였다.

상세 분석

이 연구는 온디바이스 LLM 배치라는 실용적 문제에 스케일링 법칙과 하드웨어 성능 모델을 정량적으로 결합한 점이 가장 큰 혁신이다. 먼저 저자들은 모델 손실 L(θ)를 아키텍처 파라미터(층 수 l, 숨김 차원 d, FFN 확장 비율 r, KV‑cache 차원 dm, MoE 활성화 비율 ρ)와의 다항식 형태로 근사한다. 손실 모델은 기존의 파라미터‑데이터‑컴퓨팅 스케일링(예: Kaplan 법칙)과 달리, 폭‑깊이‑전문가‑캐시 구조가 각각 다른 지수 α와 계수 κ를 갖는 복합 형태를 제시한다. 이는 실험적으로 170개의 다양한 아키텍처에 대해 10 B 토큰 학습 후 얻은 검증 손실 데이터를 기반으로 비선형 최소제곱법으로 피팅되었으며, 각 파라미터가 손실에 미치는 영향이 명확히 구분된다.

다음으로 지연 모델링에서는 Roofline 분석을 적용해 하드웨어 한계(피크 FLOPS π_H, 메모리 대역폭 β_H)를 이용해 연산‑대‑대역폭 경계선을 정의하고, 아키텍처별 연산량과 메모리 접근량을 정량화하였다. 특히 KV‑cache 크기 dm이 메모리 대역폭에 미치는 영향을 GQA(그룹화된 쿼리‑키‑밸류) 비율을 통해 파라미터화함으로써, 폭을 늘릴 경우 메모리‑바운드로 전이되는 현상을 정확히 포착한다. 이렇게 얻어진 지연 함수 T(θ;H,W)는 배치 크기 B, 입력·출력 시퀀스 길이 S_in, S_out 등 워크로드 변수와 결합돼, 특정 하드웨어와 작업 조건 하에서의 실시간 지연을 빠르게 예측한다.

두 모델을 결합해 최적화 문제 min_θ L(θ) s.t. T(θ)≤T_lat, M(θ)≤M_budget을 정의하고, 직접적인 파라미터 탐색 대신 손실·지연 서프라이즈를 이용한 파레토 프론티어를 계산한다. 실험에서는 1,942개의 후보 아키텍처를 Jetson Orin에서 벤치마크하고, 손실 스케일링을 통해 전체 설계 공간을 0.1 % 수준의 오차로 예측함으로써, 수천 개의 후보를 실제 실행 없이도 정확히 평가할 수 있었다. 파레토 최적점은 “깊이‑폭‑전문가‑캐시” 조합에 따라 다르게 나타났으며, 특히 MoE 활성화 비율 ρ를 조절해 메모리 사용량을 크게 낮추면서도 손실을 유지하는 설계가 유리함을 확인했다.

또한 정밀도(정수 비트폭)와 성능을 공동 최적화하는 확장 모델을 제시해, INT8/INT4 양자화와 메모리 제한을 동시에 고려한 설계 영역을 도출했다. 이를 통해 기존 Qwen2.5‑0.5B와 동일 지연(≈ 12 ms)에서 WikiText‑2 퍼플렉시티를 19.42 % 감소시킨 새로운 아키텍처를 구현하였다. 설계 흐름은 “아키텍처 파라미터 → 손실 스케일링 피팅 → Roofline 지연 예측 → 파레토 프론티어 도출 → 최적 설계 선택” 순으로, 전체 과정이 며칠 안에 완료될 정도로 효율적이다.

한계점으로는 현재 Jetson Orin 하나에 국한된 실험과, 10 B 토큰 학습이라는 비교적 짧은 사전학습 단계가 있다. 또한 손실 모델이 검증 손실에 기반하므로 실제 배포 시 다운스트림 태스크 성능과 차이가 날 가능성이 있다. 향후 다양한 하드웨어(예: Edge TPU, FPGA)와 더 큰 토큰 규모에 대한 일반화 검증이 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기