SOM Directions are Better than One: Multi-Directional Refusal Suppression in Language Models
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ ๊ฑฐ๋ถ ํ๋ ์ ํ์ฌ LLM ์์ ์ฑ ์ฐ๊ตฌ์ ํต์ฌ ๊ณผ์ ์ด๋ฉฐ, โ๊ฑฐ๋ถ๋ฅผ ์ต์ โํ๋ jailbreak ๊ณต๊ฒฉ์ ๋ํ ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ์ ์ดํดํ๋ ๊ฒ์ด ํ์์ ์ด๋ค. ๊ธฐ์กด ๋ฉ์ปค๋์ฆ ํด์ ์ฐ๊ตฌ๋ ๋จ์ผ ๋ฒกํฐ (differenceโinโmeans)๋ก ๊ฐ๋ ์ ์์ฝํ์ง๋ง, ์ด๋ ๋ค์ค ์ฐจ์์ ์ธ ๊ฐ๋ ๊ตฌ์กฐ๋ฅผ ๊ณผ๋ํ๊ฒ ๋จ์ํํ๋ค๋ ๋นํ์ ๋ฐ์์๋ค. SelfโOrganizing Map ์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์ ๊ฒฉ์ ํํ์ ํ ํด๋ก์ง ๋ณด์กด ๋งต์ผ๋ก ๋ณํํด, ๋ฐ์ดํฐ ๊ตฐ์ง์ ์๊ฐํํ๊ณ ๋ค์ค ํ๋กํ ํ์ ์ ์์ฐ์ค๋ฝ๊ฒ ์ถ์ถํ๋ค๋ ์ฅ์ ์ด ์๋ค. 2.




