
One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation
๋ณธ ๋ ผ๋ฌธ์ ์ต๊ทผ ์๊ฐ ์์ฑ ๋ชจ๋ธ์ด ๊ณ ์ฐจ์ ์ด๋ฏธ์ง ํน์ง์ ์ง์ ํ์ฉํ๊ธฐ๋ณด๋ค ์์ถ๋ ์ ์ฌ๊ณต๊ฐ์์ ์๋ํจ์ผ๋ก์จ ํ์ต ํจ์จ์ฑ์ ๋์ด๊ณ ์ํ ํ์ง์ ์ ์งํ๋ ค๋ ํ๋ฆ์ ์ ํํ ์ง์ด๋ธ๋ค. ๊ทธ๋ฌ๋ ์ฌ์ ํ์ต๋ ๋น์ ํธ๋์คํฌ๋จธ(DINO, SigLIP ๋ฑ)์ ๊ฐ์ ๊ฐ๋ ฅํ ์ดํดโ์งํฅ ํน์ง์ ์ผ๋ฐ์ ์ผ๋ก ๋์ ์ฐจ์์ ์ ์งํ๋ฉฐ, ์ด๋ ๋ง์คํฌ๋ ์์ญ์ ๋ํ ๋ค์ํ ๊ฐ์ค์ ๋์์ ํํํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค. ๋ฐ๋ฉด, ํ์ฐ ๋ชจ๋ธ์ด๋ ์ ๊ทํ ํ๋ฆ๊ณผ ๊ฐ์ ์์ฑ ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๋ฅผ ์ ํํ ์ ๋ฌํ๊ณ ์ ์ง์ ์ผ๋ก ์ํ์ ๋ณต์ํด์ผ ํ๋ฏ๋ก, ์ฐจ์์ด ๋ฎ๊ณ ์ฐ์์ ์ธ ์ ์ฌ๊ณต๊ฐ์ ์๊ตฌ















































