
No Free Lunch in Language Model Bias Mitigation? Targeted Bias Reduction Can Exacerbate Unmitigated LLM Biases
๋ณธ ๋ ผ๋ฌธ์ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํธํฅ ์ํ๊ฐ ๋จ์ผ ์ฐจ์์์์ ์ฑ๊ณต์ ๋จธ๋ฌด๋ฅด์ง ์๊ณ , ๋ค๋ฅธ ์ฐจ์์์ ์๋ก์ด ํธํฅ์ ์ ๋ฐํ๊ฑฐ๋ ๊ธฐ์กด ํธํฅ์ ์ฌํ์ํฌ ์ ์๋ค๋ ์ค์ํ ๊ต์ฐจ ํจ๊ณผ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ๊ตฌํ๋ค. ์ฐ๊ตฌ์ง์ ๋จผ์ 7๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ(์: GPT, BERT, T5 ๋ฑ)์์ ํ์๋ 10๊ฐ์ ๋ชจ๋ธ์ ์ ์ ํ๊ณ , ๊ฐ๊ฐ์ ๋ํด ๋ค ๊ฐ์ง ๋ํ์ ์ธ ํธํฅ ์ํ ๊ธฐ๋ฒ(๋ฐ์ดํฐ ์ฌ์ํ๋ง, ์์ค ๊ฐ์ค์น ์กฐ์ , ์ฌํ ํํฐ๋ง, ํ๋กฌํํธ ์์ง๋์ด๋ง)์ ์ ์ฉํ์๋ค. ์ด๋ ์ธ์ข , ์ข ๊ต, ์ง์ ยท์ฑ๋ณ์ด๋ผ๋ ์ธ ๊ฐ์ง ์ฃผ์ ํธํฅ ์ถ์ ์ค์ ํ๊ณ , ๊ฐ ์ถ์ ๋
















































