
Collaborative Edge-to-Server Inference for Vision-Language Models
๋ณธ ๋ ผ๋ฌธ์ ์ฃ์ง ๋๋ฐ์ด์ค์ ์๋ฒ ๊ฐ์ ํ์ ์ ํตํด ๋น์ ์ธ์ด ๋ชจ๋ธ(VLM)์ ์ถ๋ก ๊ณผ์ ์์ ๋ฐ์ํ๋ ํต์ ๋น์ฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๋ ์๋์ ๋๋ค. ์ ํต์ ์ธ VLM ์ถ๋ก ๋ฐฉ๋ฒ์์๋ ์ฃ์ง ๋๋ฐ์ด์ค์์ ์บก์ฒ๋ ์ด๋ฏธ์ง๋ฅผ ์๋ฒ๋ก ์ ์กํ๊ณ , ์ด ์ด๋ฏธ์ง๋ ์๋ฒ ๋ด๋ถ์ ๋น์ ์ธ์ฝ๋์ ๋ง๊ฒ ๋ฆฌ์ฌ์ด์ง๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๊ณผ์ ์์ ์ธ๋ฐํ ์๊ฐ ์ ๋ณด๊ฐ ์์ค๋์ด ์ถ๋ก ์ ํ๋๊ฐ ์ ํ๋ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ๋จ๊ณ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ์๋ฒ์์ ์ ์ฒด ์ด๋ฏธ์ง์ ๋ํ ์ด๊ธฐ ์ถ๋ก ์ ์ํํ๊ณ , VLM ๋ด๋ถ์ ์ฃผ์ ๋ฉ์ปค๋์ฆ์





































