๐ ์๋ฌธ ์ ๋ณด
- Title: One Leak Away: How Pretrained Model Exposure Amplifies Jailbreak Risks in Finetuned LLMs
- ArXiv ID: 2512.14751
- ๋ฐํ์ผ: 2025-12-14
- ์ ์: Yixin Tan, Zhe Yu, Jun Sakuma
๐ ์ด๋ก (Abstract)
์ ๊ณต๋ ์ด๋ก์ด ์์ต๋๋ค.
๐ก ๋
ผ๋ฌธ ํต์ฌ ํด์ค (Deep Analysis)
ํ์ฌ ์
๋ ฅ๋ ์๋ฃ์๋ ๋
ผ๋ฌธ์ ์ ๋ชฉ, ์ด๋ก, ๋ณธ๋ฌธ ๋ด์ฉ์ด ์ ํ ํฌํจ๋์ด ์์ง ์์ผ๋ฏ๋ก, ํด๋น ๋
ผ๋ฌธ์ ๋ํ ์ฌ์ธต์ ์ธ ๋ถ์์ ์ํํ ์ ์์ต๋๋ค. ๋
ผ๋ฌธ์ ์ฐ๊ตฌ ๋ชฉ์ , ๋ฐฉ๋ฒ๋ก , ์คํ ๊ฒฐ๊ณผ, ๊ฒฐ๋ก ๋ฑ ํต์ฌ ์์๊ฐ ์ ๊ณต๋์ง ์์ผ๋ฉด, ์ฐ๊ตฌ์ ํ์ ์ฑ, ๊ธฐ์กด ๋ฌธํ๊ณผ์ ์ฐจ๋ณ์ , ์ค์ฉ์ ยทํ์ ์ ์์ ๋ฑ์ ํ๊ฐํ๊ฑฐ๋ ๋นํ์ ๊ณ ์ฐฐ์ ์ ๊ฐํ ๊ทผ๊ฑฐ๊ฐ ๋ถ์กฑํฉ๋๋ค. ๋ฐ๋ผ์ ์ ํํ๊ณ ์๋ฏธ ์๋ ๋ถ์์ ์ํด์๋ ๋
ผ๋ฌธ์ ์ ์ฒด ํ
์คํธ(์ ๋ชฉ, ์ด๋ก, ์๋ก , ๋ฐฉ๋ฒ, ๊ฒฐ๊ณผ, ํ ๋ก ๋ฐ ์ฐธ๊ณ ๋ฌธํ ๋ฑ)๊ฐ ํ์ํฉ๋๋ค. ํด๋น ์ ๋ณด๋ฅผ ์ ๊ณตํด ์ฃผ์๋ฉด, ์๊ตฌํ์ 800์ ์ด์์ ์์ธ ๋ถ์์ ์ ์ํ ์์ฑํด ๋๋ฆฌ๊ฒ ์ต๋๋ค.
๐ ๋
ผ๋ฌธ ๋ณธ๋ฌธ ๋ฐ์ท (Translation)
์ ๊ณต๋ ํ
์คํธ๊ฐ ์์ผ๋ฏ๋ก ๋ฒ์ญ์ด ๋ถ๊ฐ๋ฅํฉ๋๋ค.
๐ธ ์ถ๊ฐ ์ด๋ฏธ์ง ๊ฐค๋ฌ๋ฆฌ
Reference
์ด ๊ธ์ ArXiv์ ๊ณต๊ฐ ์๋ฃ๋ฅผ ๋ฐํ์ผ๋ก AI๊ฐ ์๋ ๋ฒ์ญ ๋ฐ ์์ฝํ ๋ด์ฉ์
๋๋ค.
์ ์๊ถ์ ์์ ์์๊ฒ ์์ผ๋ฉฐ, ์ธ๋ฅ ์ง์ ๋ฐ์ ์ ๊ธฐ์ฌํ ์ฐ๊ตฌ์๋ถ๋ค๊ป ๊ฐ์ฌ๋๋ฆฝ๋๋ค.