
Matching Ranks Over Probability Yields Truly Deep Safety Alignment
: ๋ณธ ๋ ผ๋ฌธ์ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์์ ์ฑ ๊ฐํ๋ฅผ ์ํ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํ๊ณ ์์ต๋๋ค. ํนํ, ์ฌ์ ์ฑ์ฐ๊ธฐ ๊ณต๊ฒฉ๊ณผ ์ด๋ฅผ ์ฐํํ๋ ๋ฐฉ์์ ๋ํ ์ฌ๋ ์๋ ๋ถ์์ ์ ๊ณตํฉ๋๋ค. 1. ์ฌ์ ์ฑ์ฐ๊ธฐ ๊ณต๊ฒฉ ๋ฐ RAP ๊ณต๊ฒฉ ์ฌ์ ์ฑ์ฐ๊ธฐ ๊ณต๊ฒฉ์ ์ฌ์ฉ์๊ฐ LLM์ ์ ํดํ ์์ฒญ์ ํ ๋, ํ์ธ์ ์ํ ๊ธ์ ์ ์ธ ํ ์คํธ๋ฅผ ๋ฏธ๋ฆฌ ์ ๋ ฅํ์ฌ ๋์ฝ๋ฉ ๊ณผ์ ์ ์์ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ LLM์ด ์์ ์ ๋ ฌ๋์ด ์์ด๋ ์ ํดํ ๋ด์ฉ์ ์ถ์ถํ ์ ์๊ฒ ํฉ๋๋ค. RAP (Rank Assisted Prefilling) ๊ณต๊ฒฉ์ ์ฌ์ ์ฑ์ฐ๊ธฐ์ ๊ฐ ๋์ฝ๋ฉ ๋จ๊ณ์์ ์์






























