์ œ๋ชฉ ์—†์Œ

์ฝ๋Š” ์‹œ๊ฐ„: 1 ๋ถ„
...

๐Ÿ“ ์›๋ฌธ ์ •๋ณด

  • Title: One Leak Away: How Pretrained Model Exposure Amplifies Jailbreak Risks in Finetuned LLMs
  • ArXiv ID: 2512.14751
  • ๋ฐœํ–‰์ผ: 2025-12-14
  • ์ €์ž: Yixin Tan, Zhe Yu, Jun Sakuma

๐Ÿ“ ์ดˆ๋ก (Abstract)

์ œ๊ณต๋œ ์ดˆ๋ก์ด ์—†์Šต๋‹ˆ๋‹ค.

๐Ÿ’ก ๋…ผ๋ฌธ ํ•ต์‹ฌ ํ•ด์„ค (Deep Analysis)

Figure 1
ํ˜„์žฌ ์ž…๋ ฅ๋œ ์ž๋ฃŒ์—๋Š” ๋…ผ๋ฌธ์˜ ์ œ๋ชฉ, ์ดˆ๋ก, ๋ณธ๋ฌธ ๋‚ด์šฉ์ด ์ „ํ˜€ ํฌํ•จ๋˜์–ด ์žˆ์ง€ ์•Š์œผ๋ฏ€๋กœ, ํ•ด๋‹น ๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์‹ฌ์ธต์ ์ธ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์˜ ์—ฐ๊ตฌ ๋ชฉ์ , ๋ฐฉ๋ฒ•๋ก , ์‹คํ—˜ ๊ฒฐ๊ณผ, ๊ฒฐ๋ก  ๋“ฑ ํ•ต์‹ฌ ์š”์†Œ๊ฐ€ ์ œ๊ณต๋˜์ง€ ์•Š์œผ๋ฉด, ์—ฐ๊ตฌ์˜ ํ˜์‹ ์„ฑ, ๊ธฐ์กด ๋ฌธํ—Œ๊ณผ์˜ ์ฐจ๋ณ„์ , ์‹ค์šฉ์ ยทํ•™์ˆ ์  ์˜์˜ ๋“ฑ์„ ํ‰๊ฐ€ํ•˜๊ฑฐ๋‚˜ ๋น„ํŒ์  ๊ณ ์ฐฐ์„ ์ „๊ฐœํ•  ๊ทผ๊ฑฐ๊ฐ€ ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ •ํ™•ํ•˜๊ณ  ์˜๋ฏธ ์žˆ๋Š” ๋ถ„์„์„ ์œ„ํ•ด์„œ๋Š” ๋…ผ๋ฌธ์˜ ์ „์ฒด ํ…์ŠคํŠธ(์ œ๋ชฉ, ์ดˆ๋ก, ์„œ๋ก , ๋ฐฉ๋ฒ•, ๊ฒฐ๊ณผ, ํ† ๋ก  ๋ฐ ์ฐธ๊ณ ๋ฌธํ—Œ ๋“ฑ)๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•ด๋‹น ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ด ์ฃผ์‹œ๋ฉด, ์š”๊ตฌํ•˜์‹  800์ž ์ด์ƒ์˜ ์ƒ์„ธ ๋ถ„์„์„ ์‹ ์†ํžˆ ์ž‘์„ฑํ•ด ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค.

๐Ÿ“„ ๋…ผ๋ฌธ ๋ณธ๋ฌธ ๋ฐœ์ทŒ (Translation)

์ œ๊ณต๋œ ํ…์ŠคํŠธ๊ฐ€ ์—†์œผ๋ฏ€๋กœ ๋ฒˆ์—ญ์ด ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“ธ ์ถ”๊ฐ€ ์ด๋ฏธ์ง€ ๊ฐค๋Ÿฌ๋ฆฌ

finding_1_heatmap.png h1_ens.png h2_llama2_7b_ens.png intro.png l4a_ens.png method.png origin.png safety_examples.png

Reference

์ด ๊ธ€์€ ArXiv์˜ ๊ณต๊ฐœ ์ž๋ฃŒ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ AI๊ฐ€ ์ž๋™ ๋ฒˆ์—ญ ๋ฐ ์š”์•ฝํ•œ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค. ์ €์ž‘๊ถŒ์€ ์›์ €์ž์—๊ฒŒ ์žˆ์œผ๋ฉฐ, ์ธ๋ฅ˜ ์ง€์‹ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•œ ์—ฐ๊ตฌ์ž๋ถ„๋“ค๊ป˜ ๊ฐ์‚ฌ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

๊ฒ€์ƒ‰ ์‹œ์ž‘

๊ฒ€์ƒ‰์–ด๋ฅผ ์ž…๋ ฅํ•˜์„ธ์š”

โ†‘โ†“
โ†ต
ESC
โŒ˜K ๋‹จ์ถ•ํ‚ค