MatKV: Trading Compute for Flash Storage in LLM Inference
๋ณธ ๋ ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์์ฑ AI ๋ถ์ผ์์ ๋ ๊ฐ์ง ์ฃผ์ ์ถ์ธ๋ฅผ ๋ถ์ํ๊ณ , ํนํ RAG ๋ฐฉ์์ prefill ๋จ๊ณ์์ ๋ฐ์ํ๋ ์๋์ง ์๋น์ ์๊ฐ ์๋ชจ ๋ฌธ์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค. MatKV ๋ฐฉ์์ ํตํด ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๋ ์๋๊ฐ ์ด๋ฃจ์ด์ก์ผ๋ฉฐ, ์ด ๋ฐฉ์์ key value ๋ฒกํฐ(KVs)๋ฅผ ์ฌ์ ๊ณ์ฐํ๊ณ ์ ๋ ดํ ํ๋์ ์ ์ฅ ์ฅ์น์ ๋ฌผ๋ฆฌํํ์ฌ ์ถ๋ก ์๊ฐ๊ณผ ์ ๋ ฅ ์๋น๋ฅผ ์ค์ด๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ์์๋ Hugging Face์ Transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํด ์ต์ GPU์ ํ๋์ ๋ฉ๋ชจ๋ฆฌ SSD์์ RAG ์์ ์















































