
Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ ์ ๊ธฐ ๋จ์ผโ์์ด์ ํธ ์์ ํจ๋ฌ๋ค์์ ํ๊ณ ๊ธฐ์กด ์์ ๊ธฐ์ (RLHF, ํ๋กฌํํธ ์์ง๋์ด๋ง, ์ถ๋ ฅ ๋ชจ๋๋ ์ด์ ๋ฑ)์ ์ ๋ณ (pointwise) ์ ์ด์ ์ด์ ์ ๋ง์ถ๋ค. ์ด๋ โํ๋์ ๋ชจ๋ธ โ ํ๋์ ์ฌ์ฉ์โ๋ผ๋ ์ด์์ (dyadic) ์ํฉ์ ์ ์ ๋ก ํ๋ฉฐ, ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ์ธ๋ถ ์์คํ ์ ์ฌํฌ์ ๋๋ ๊ฒฝ์ฐ๋ฅผ ๊ณ ๋ คํ์ง ์๋๋ค. LLMโtoโLLM ์ํ๊ณ์ ๊ธ์ฑ์ฅ AutoGen, CAMEL, SWEโagent, Voyager ๋ฑ์์ ๋ณด๋ฏ, LLM์ด ๋๊ตฌ, ๋ฉ๋ชจ๋ฆฌ, ๋ค๋ฅธ LLM๊ณผ ์ฐ๊ณ๋๋ ๋ฉํฐโ์์ด์ ํธ ๊ตฌ์กฐ๊ฐ ์ค๋ฌด์ ์ฐ๊ตฌ ๋ชจ๋










































