Interaction Dynamics as a Reward Signal for LLMs

Interaction Dynamics as a Reward Signal for LLMs

๐Ÿ“ Abstract

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”์— ๋งž์ถ”๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•์€ ์ฃผ๋กœ ํ…์ŠคํŠธ ๋‚ด์šฉ์—์„œ ์ถ”์ถœํ•œ ๋ณด์ƒ ์‹ ํ˜ธ์— ์˜์กดํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ์ƒํ˜ธ์ž‘์šฉ ์ž์ฒด๊ฐ€ ์ œ๊ณตํ•˜๋Š” ํ’๋ถ€ํ•˜๊ณ  ๋ณด์™„์ ์ธ ์‹ ํ˜ธ๋ฅผ ๊ฐ„๊ณผํ•œ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€ํ™” ์ž„๋ฒ ๋”ฉ ๊ถค์ ์˜ ๊ธฐํ•˜ํ•™์  ํŠน์„ฑ์—์„œ ๋„์ถœ๋œ ์ƒˆ๋กœ์šด ๋ณด์ƒ ์‹ ํ˜ธ์ธ TRACE(Trajectoryโ€‘based Reward for Agent Collaboration Estimation)๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ํ•ต์‹ฌ ๋ฐœ๊ฒฌ์€ ๊ตฌ์กฐ์  ์‹ ํ˜ธ๋งŒ์œผ๋กœ ํ•™์Šต๋œ ๋ณด์ƒ ๋ชจ๋ธ์ด ์ „์ฒด ์ „์‚ฌ ํ…์ŠคํŠธ๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ฐ•๋ ฅํ•œ LLM ๋ฒ ์ด์Šค๋ผ์ธ๊ณผ ๋น„์Šทํ•œ ์Œ๋ณ„ ์ •ํ™•๋„(68.20% vs. 70.04%)๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค๋Š” ์ ์ด๋‹ค. ํ…์ŠคํŠธ ๋ถ„์„๊ณผ ์ƒํ˜ธ์ž‘์šฉ ์—ญํ•™์„ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์€ ์ตœ๊ณ  ์„ฑ๋Šฅ(80.17%)์„ ๋ณด์—ฌ ๋‘ ์‹ ํ˜ธ๊ฐ€ ์ƒํ˜ธ ๋ณด์™„์ ์ž„์„ ์ž…์ฆํ•œ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ™˜๊ฒฝ์—์„œ โ€œ๋ฌด์—‡์„ ๋งํ•˜๋Š”๊ฐ€โ€๋ณด๋‹ค โ€œ์–ด๋–ป๊ฒŒ ๋งํ•˜๋Š”๊ฐ€โ€๊ฐ€ ์„ฑ๊ณต์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฐ•๋ ฅํ•œ ์ง€ํ‘œ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ•˜๋ฉฐ, ํ”„๋ผ์ด๋ฒ„์‹œ๋ฅผ ๋ณดํ˜ธํ•˜๋ฉด์„œ ์—์ด์ „ํŠธ๋ฅผ ์ •๋ ฌํ•˜๊ณ  ํ˜‘์—… ํŒจํ„ด์„ ์ง„๋‹จํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

๐Ÿ’ก Deep Analysis

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ

  • ๊ธฐ์กด ๋ณด์ƒ ์„ค๊ณ„์˜ ํ•œ๊ณ„: ํ˜„์žฌ LLM ์ •๋ ฌ์—์„œ๋Š” ์ฃผ๋กœ ํ…์ŠคํŠธ ๋‚ด์šฉ(์˜ˆ: ์ •๋‹ต ์ผ์น˜, ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ) ๊ธฐ๋ฐ˜ ๋ณด์ƒ์ด ์‚ฌ์šฉ๋œ๋‹ค. ์ด๋Š” ๋Œ€ํ™”์˜ ํ๋ฆ„, ์‘๋‹ต ๊ฐ„ ๊ฑฐ๋ฆฌ, ๋Œ€ํ™” ์ „๋ฐ˜์˜ ๊ตฌ์กฐ์  ๋ณ€ํ™” ๋“ฑ์„ ๋ฌด์‹œํ•œ๋‹ค.
  • ํ”„๋ผ์ด๋ฒ„์‹œ์™€ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ: ํ…์ŠคํŠธ ์ž์ฒด๋ฅผ ์ €์žฅยท๋ถ„์„ํ•˜๋ฉด ๊ฐœ์ธ์ •๋ณด ์œ ์ถœ ์œ„ํ—˜์ด ์žˆ๋‹ค. ๋ฐ˜๋ฉด ์ž„๋ฒ ๋”ฉ ๊ถค์ ์€ ์›๋ณธ ํ…์ŠคํŠธ๋ฅผ ๋ณต์›ํ•˜๊ธฐ ์–ด๋ ค์›Œ ํ”„๋ผ์ด๋ฒ„์‹œ ๋ณดํ˜ธ์— ์œ ๋ฆฌํ•˜๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด โ€“ โ€œ๋Œ€ํ™” ๊ธฐํ•˜ํ•™โ€

  • ๋Œ€ํ™” ์ž„๋ฒ ๋”ฉ ๊ถค์ : ๋Œ€ํ™”๊ฐ€ ์ง„ํ–‰๋ ์ˆ˜๋ก ๊ฐ ํ„ด์˜ ํ…์ŠคํŠธ๋ฅผ ์‚ฌ์ „ ํ•™์Šต๋œ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ(์˜ˆ: Sentenceโ€‘BERT)์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ์—ฐ์†์ ์ธ ์ž„๋ฒ ๋”ฉ์„ ์‹œ๊ณ„์—ด๋กœ ์—ฐ๊ฒฐํ•œ๋‹ค.
  • ๊ธฐํ•˜ํ•™์  ํŠน์„ฑ:
    • ๊ณก๋ฅ (Curvature): ๋Œ€ํ™” ํ๋ฆ„์ด ๊ธ‰๊ฒฉํžˆ ๋ฐ”๋€Œ๋Š” ์ง€์  ํƒ์ง€.
    • ๊ธธ์ด(Length)์™€ ์†๋„(Speed): ์ „์ฒด ๋Œ€ํ™”๊ฐ€ ์–ผ๋งˆ๋‚˜ โ€œ๋น ๋ฅด๊ฒŒโ€ ์ง„ํ–‰๋˜๋Š”๊ฐ€.
    • ์ž๊ธฐ์œ ์‚ฌ์„ฑ(Selfโ€‘Similarity): ์ด์ „ ๋ฐœํ™”์™€์˜ ์œ ์‚ฌ๋„ ๋ณ€๋™ ํŒจํ„ด.
  • TRACE ๋ณด์ƒ: ์œ„ ํŠน์„ฑ๋“ค์„ ์ •๊ทœํ™”ยท๊ฐ€์ค‘ํ•ฉํ•˜์—ฌ ํ•˜๋‚˜์˜ ์Šค์นผ๋ผ ๋ณด์ƒ๊ฐ’์„ ์‚ฐ์ถœํ•œ๋‹ค.

3. ๋ชจ๋ธ ์„ค๊ณ„ ๋ฐ ํ•™์Šต

  • ๋ณด์ƒ ๋ชจ๋ธ: ๊ฐ„๋‹จํ•œ MLP(๋‹ค์ธต ํผ์…‰ํŠธ๋ก )๋กœ, ์ž…๋ ฅ์€ 5~10 ์ฐจ์›์˜ ๊ธฐํ•˜ํ•™์  ํ”ผ์ฒ˜, ์ถœ๋ ฅ์€ ์Œ๋ณ„ ์„ ํ˜ธ ์ ์ˆ˜.
  • ํ•™์Šต ๋ฐ์ดํ„ฐ: ๊ธฐ์กด RLHF(RL with Human Feedback) ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ธ๊ฐ„ ์„ ํ˜ธ ๋ผ๋ฒจ์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ํ…์ŠคํŠธ๋Š” ์ œ์™ธํ•˜๊ณ  ๊ธฐํ•˜ํ•™์  ํ”ผ์ฒ˜๋งŒ ์ œ๊ณต.
  • ๋น„๊ต ๋ฒ ์ด์Šค๋ผ์ธ:
    1. ํ…์ŠคํŠธโ€‘์ „์šฉ LLM: ์ „์ฒด ๋Œ€ํ™” ์ „์‚ฌ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๋ณด์ƒ ์˜ˆ์ธก.
    2. ํ•˜์ด๋ธŒ๋ฆฌ๋“œ: ํ…์ŠคํŠธ์™€ ๊ธฐํ•˜ํ•™์  ํ”ผ์ฒ˜๋ฅผ ๋™์‹œ์— ์ž…๋ ฅ.

4. ์‹คํ—˜ ๊ฒฐ๊ณผ

๋ชจ๋ธ ์Œ๋ณ„ ์ •ํ™•๋„ (Pairwise Accuracy)
ํ…์ŠคํŠธโ€‘์ „์šฉ LLM 70.04โ€ฏ%
TRACEโ€‘์ „์šฉ (๊ธฐํ•˜ํ•™) 68.20โ€ฏ%
ํ•˜์ด๋ธŒ๋ฆฌ๋“œ (ํ…์ŠคํŠธโ€ฏ+โ€ฏ๊ธฐํ•˜ํ•™) 80.17โ€ฏ%
  • ๋ณด์™„์„ฑ ํ™•์ธ: ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์ด ๋‘ ์‹ ํ˜ธ๋ฅผ ๊ฒฐํ•ฉํ–ˆ์„ ๋•Œ ํฐ ํญ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๋ฉฐ, ๊ธฐํ•˜ํ•™์  ์‹ ํ˜ธ๊ฐ€ ํ…์ŠคํŠธ ์‹ ํ˜ธ์™€ ๋…๋ฆฝ์ ์ธ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•จ์„ ์ž…์ฆํ•œ๋‹ค.
  • ํ”„๋ผ์ด๋ฒ„์‹œ ์‹คํ—˜: ํ…์ŠคํŠธ๋ฅผ ์™„์ „ํžˆ ๋งˆ์Šคํ‚นํ•œ ์ƒํƒœ์—์„œ๋„ 68% ์ˆ˜์ค€์˜ ์ •ํ™•๋„๋ฅผ ์œ ์ง€, ๋ฏผ๊ฐ ์ •๋ณด๊ฐ€ ํฌํ•จ๋œ ๋Œ€ํ™”์—์„œ๋„ ์•ˆ์ „ํ•˜๊ฒŒ ํ™œ์šฉ ๊ฐ€๋Šฅํ•จ์„ ์‹œ์—ฐ.

5. ์˜์˜ ๋ฐ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  1. ํ”„๋ผ์ด๋ฒ„์‹œโ€‘์šฐ์„  ์ •๋ ฌ: ์˜๋ฃŒยท๋ฒ•๋ฅ ยท๊ธˆ์œต ๋“ฑ ๋ฏผ๊ฐํ•œ ๋„๋ฉ”์ธ์—์„œ ํ…์ŠคํŠธ๋ฅผ ์ €์žฅํ•˜์ง€ ์•Š๊ณ ๋„ LLM์„ ์ •๋ ฌํ•  ์ˆ˜ ์žˆ๋‹ค.
  2. ์ง„๋‹จ ๋„๊ตฌ: ๋Œ€ํ™” ๊ถค์ ์„ ์‹œ๊ฐํ™”ํ•จ์œผ๋กœ์จ ํ˜‘์—… ์‹คํŒจ ์›์ธ์„ โ€œ๋Œ€ํ™” ํ๋ฆ„์˜ ๊ธ‰๊ฒฉํ•œ ๋ณ€๋™โ€ ๋“ฑ์œผ๋กœ ์ง๊ด€์ ์œผ๋กœ ํŒŒ์•… ๊ฐ€๋Šฅ.
  3. ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ˜‘์—…: ์ธ๊ฐ„โ€‘AI ํ˜น์€ AIโ€‘AI ํ˜‘์—… ์‹œ, ๊ฐ ์—์ด์ „ํŠธ์˜ ๋Œ€ํ™” ํŒจํ„ด์„ ์ •๋Ÿ‰ํ™”ํ•ด ์—ญํ•  ๋ถ„๋‹ด์ด๋‚˜ ๋ฆฌ๋”์‹ญ ์ „ํ™˜์„ ์ž๋™์œผ๋กœ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.

6. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ ์˜์กด์„ฑ: ํ˜„์žฌ๋Š” ๊ณ ์ •๋œ ์‚ฌ์ „ ํ•™์Šต ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ์ž„๋ฒ ๋”ฉ ํ’ˆ์งˆ์— ๋”ฐ๋ผ ๊ธฐํ•˜ํ•™์  ํ”ผ์ฒ˜๊ฐ€ ํฌ๊ฒŒ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค. ํ–ฅํ›„ LLM ์ž์ฒด ์ž„๋ฒ ๋”ฉ์„ ๋™์‹œ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํƒ์ƒ‰ํ•ด์•ผ ํ•จ.
  • ํ”ผ์ฒ˜ ์„ค๊ณ„์˜ ์ฃผ๊ด€์„ฑ: ๊ณก๋ฅ ยท์†๋„ยท์ž๊ธฐ์œ ์‚ฌ์„ฑ ๋“ฑ ์„ ํƒ๋œ ํ”ผ์ฒ˜๊ฐ€ ์ตœ์ ์ธ์ง€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋ฉฐ, ์ž๋™ ํ”ผ์ฒ˜ ํ•™์Šต(์˜ˆ: ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง)์œผ๋กœ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฒ€ํ† ํ•œ๋‹ค.
  • ์Šค์ผ€์ผ๋ง: ํ˜„์žฌ ์‹คํ—˜์€ 10k~50k ๋Œ€ํ™” ์ˆ˜์ค€์— ๊ตญํ•œ๋˜์—ˆ์œผ๋ฉฐ, ์ˆ˜๋ฐฑ๋งŒ ๋Œ€ํ™”์— ๋Œ€ํ•œ ํšจ์œจ์„ฑ ๋ฐ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ด์•ผ ํ•œ๋‹ค.
  • ๋‹ค์–ธ์–ดยท๋‹ค๋ฌธํ™” ์ ์šฉ: ์ž„๋ฒ ๋”ฉ์ด ์–ธ์–ด๋งˆ๋‹ค ๋‹ค๋ฅด๊ฒŒ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์–ด, ๋‹ค์–ธ์–ด ํ™˜๊ฒฝ์—์„œ์˜ ๊ธฐํ•˜ํ•™์  ๋ณด์ƒ์˜ ์ผ๊ด€์„ฑ์„ ๊ฒ€์ฆํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

7. ๊ฒฐ๋ก 

TRACE๋Š” โ€œ๋ฌด์—‡์„ ๋งํ•˜๋Š”๊ฐ€โ€๋ณด๋‹ค โ€œ์–ด๋–ป๊ฒŒ ๋งํ•˜๋Š”๊ฐ€โ€์— ์ดˆ์ ์„ ๋งž์ถ˜ ์ƒˆ๋กœ์šด ๋ณด์ƒ ์‹ ํ˜ธ ์ฒด๊ณ„๋กœ, ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๋ณด์ƒ๊ณผ ์ƒํ˜ธ ๋ณด์™„์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ํŠนํžˆ ํ”„๋ผ์ด๋ฒ„์‹œ ๋ณดํ˜ธ์™€ ๋Œ€ํ™” ํŒจํ„ด ์ง„๋‹จ์ด๋ผ๋Š” ๋ถ€๊ฐ€ ๊ฐ€์น˜๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ, ์ฐจ์„ธ๋Œ€ LLM ์ •๋ ฌ ๋ฐ ํ˜‘์—… ์‹œ์Šคํ…œ์— ์ค‘์š”ํ•œ ์„ค๊ณ„ ์š”์†Œ๊ฐ€ ๋  ์ „๋ง์ด๋‹ค.

๐Ÿ“„ Full Content

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™” ์ •๋ ฌ์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(Large Language Models, ์ดํ•˜ LLM)์„ ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™” ์ƒํ™ฉ์— ๋งž๊ฒŒ ์ •๋ ฌ(alignment)์‹œํ‚ค๋Š” ์ „ํ†ต์ ์ธ ๋ฐฉ๋ฒ•์€ ์ฃผ๋กœ ํ…์ŠคํŠธ ๋‚ด์šฉ ์ž์ฒด์—์„œ ์ถ”์ถœํ•œ ๋ณด์ƒ ์‹ ํ˜ธ(reward signal)์— ์˜์กดํ•œ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ๋ฌธ์žฅ์˜ ์˜๋ฏธ์  ์ •ํ™•์„ฑ, ์ผ๊ด€์„ฑ, ์œ ์šฉ์„ฑ ๋“ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์ธ๊ฐ„ ํ‰๊ฐ€์ž๋‚˜ ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ์ง€ํ‘œ๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์ ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ํ…์ŠคํŠธโ€‘์ค‘์‹ฌ์ ์ธ ์ ‘๊ทผ์€ ๋Œ€ํ™”๊ฐ€ ์ง„ํ–‰๋˜๋Š” ์—ญ๋™์ ์ธ ์ƒํ˜ธ์ž‘์šฉ ๊ณผ์ •โ€”์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฐœํ™” ๊ฐ„์˜ ์‹œ๊ฐ„์  ํ๋ฆ„, ๋Œ€ํ™” ์ฐธ์—ฌ์ž ๊ฐ„์˜ ์‘๋‹ต ํŒจํ„ด, ๋Œ€ํ™”๊ฐ€ ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ๋‚˜ํƒ€๋‚˜๋Š” ์˜๋ฏธ์  ์ด๋™โ€”์„ ์ถฉ๋ถ„ํžˆ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž **โ€˜๋Œ€ํ™” ๊ธฐํ•˜ํ•™(conversational geometry)โ€™**์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ๋„์ž…ํ•œ๋‹ค. ๋Œ€ํ™” ๊ธฐํ•˜ํ•™์€ ๋Œ€ํ™”๊ฐ€ ์ง„ํ–‰๋˜๋Š” ๋™์•ˆ ๊ฐ ๋ฐœํ™”๊ฐ€ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์— ๋งคํ•‘๋  ๋•Œ ํ˜•์„ฑ๋˜๋Š” **์ž„๋ฒ ๋”ฉ ๊ถค์ (trajectory)**์˜ ๊ธฐํ•˜ํ•™์  ํŠน์„ฑ์„ ๋ถ„์„ํ•œ๋‹ค๋Š” ์•„์ด๋””์–ด์— ๊ธฐ๋ฐ˜ํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋Œ€ํ™”์˜ ๊ฐ ํ„ด์„ ๊ณ ์ฐจ์› ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•œ ๋’ค, ์—ฐ์†์ ์ธ ํ„ด ์‚ฌ์ด์˜ ๋ฒกํ„ฐ ์ฐจ์ด, ๊ถค์ ์˜ ๊ณก๋ฅ (curvature), ๊ถค์ ์ด ํ˜•์„ฑํ•˜๋Š” ๊ตฌ์—ญ(area) ๋“ฑ ๊ตฌ์กฐ์ ยท๋™์  ํŠน์„ฑ์„ ์ •๋Ÿ‰ํ™”ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ํŠน์„ฑ๋“ค์€ ๋Œ€ํ™”๊ฐ€ ์–ผ๋งˆ๋‚˜ ์›ํ™œํ•˜๊ฒŒ ํ๋ฅด๋Š”์ง€, ์ฐธ์—ฌ์ž ๊ฐ„์˜ ํ˜‘๋ ฅ์ด ์–ผ๋งˆ๋‚˜ ํšจ์œจ์ ์ธ์ง€๋ฅผ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฐ€์ •์„ ์‹ค์ฆํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ **TRACE(Trajectoryโ€‘based Reward for Agent Collaboration Estimation)**๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์„ค๊ณ„ํ•˜์˜€๋‹ค. TRACE๋Š” ๋Œ€ํ™” ์ž„๋ฒ ๋”ฉ ๊ถค์ ์—์„œ ์ถ”์ถœํ•œ ์—ฌ๋Ÿฌ ๊ธฐํ•˜ํ•™์  ์ง€ํ‘œ๋“ค์„ ์ข…ํ•ฉํ•˜์—ฌ ํ•˜๋‚˜์˜ ์Šค์นผ๋ผ ๋ณด์ƒ๊ฐ’์„ ์‚ฐ์ถœํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ถค์ ์ด ๊ธ‰๊ฒฉํžˆ ๋ณ€ํ•˜๊ฑฐ๋‚˜ ๋ถˆ๊ทœ์น™ํ•œ ์ง„๋™์„ ๋ณด์ด๋Š” ๊ฒฝ์šฐ๋Š” ํ˜‘์—…์ด ์›ํ™œํ•˜์ง€ ์•Š์Œ์„ ์˜๋ฏธํ•˜๋ฏ€๋กœ ๋‚ฎ์€ ๋ณด์ƒ์„ ๋ถ€์—ฌํ•˜๊ณ , ๋ฐ˜๋Œ€๋กœ ๊ถค์ ์ด ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์ด์–ด์ง€๋ฉด์„œ ์ ์ง„์ ์ธ ๋ณ€ํ™”๋ฅผ ๋ณด์ด๋ฉด ๋†’์€ ๋ณด์ƒ์„ ๋ถ€์—ฌํ•œ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ฃผ์š” ์ˆ˜ํ•™์  ๋„๊ตฌ๋Š” ๋ฒกํ„ฐ ์ฐจ์ด(norm of difference), ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„(cosine similarity), ๊ถค์  ๊ณก๋ฅ (radius of curvature), ๊ทธ๋ฆฌ๊ณ  ๊ถค์  ๊ธธ์ด(total path length) ๋“ฑ์ด๋‹ค.

์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•

  1. ๋ฐ์ดํ„ฐ์…‹
    • ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”๊ฐ€ ํฌํ•จ๋œ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹(์˜ˆ: MultiWOZ, Dialog bAbI ๋“ฑ)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ๋Œ€ํ™”๋ฅผ ํ…์ŠคํŠธ์™€ ์ž„๋ฒ ๋”ฉ ๊ถค์ ์œผ๋กœ ๋™์‹œ์— ๊ธฐ๋กํ•˜์˜€๋‹ค.
  2. ๋ณด์ƒ ๋ชจ๋ธ ํ•™์Šต
    • ๋‘ ์ข…๋ฅ˜์˜ ๋ณด์ƒ ๋ชจ๋ธ์„ ๋ณ„๋„๋กœ ํ•™์Šตํ•˜์˜€๋‹ค.
      a) ํ…์ŠคํŠธโ€‘์ „์šฉ ๋ณด์ƒ ๋ชจ๋ธ: ๊ธฐ์กด ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉ๋˜๋Š” LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ๋ชจ๋ธ๋กœ, ์ „์ฒด ์ „์‚ฌ(transcript)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ์ธ๊ฐ„ ๋ผ๋ฒจ๋ง ์ ์ˆ˜๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค.
      b) TRACEโ€‘์ „์šฉ ๋ณด์ƒ ๋ชจ๋ธ: ์˜ค์ง ์ž„๋ฒ ๋”ฉ ๊ถค์ ์˜ ๊ธฐํ•˜ํ•™์  ํŠน์„ฑ๋งŒ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋™์ผํ•œ ์ธ๊ฐ„ ๋ผ๋ฒจ๋ง ์ ์ˆ˜๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šตํ•˜์˜€๋‹ค.
  3. ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ
    • ํ…์ŠคํŠธโ€‘์ „์šฉ ๋ชจ๋ธ๊ณผ TRACEโ€‘์ „์šฉ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๊ฐ’์„ ๊ฐ€์ค‘ ํ‰๊ท (weighted average)ํ•˜๊ฑฐ๋‚˜ ๋ณ„๋„์˜ ๋ฉ”ํƒ€โ€‘ํ•™์Šต(metaโ€‘learning) ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ๊ฒฐํ•ฉํ•˜์—ฌ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ณด์ƒ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜์˜€๋‹ค.
  4. ํ‰๊ฐ€ ์ง€ํ‘œ
    • ์Œ๋ณ„ ์ •ํ™•๋„(pairwise accuracy)๋ฅผ ์ฃผ์š” ์ง€ํ‘œ๋กœ ์ฑ„ํƒํ•˜์˜€๋‹ค. ์ด๋Š” ๋‘ ๋Œ€ํ™” ์ƒ˜ํ”Œ ์ค‘ ์–ด๋А ์ชฝ์ด ์ธ๊ฐ„ ๋ผ๋ฒจ๋ง ๊ธฐ์ค€์—์„œ ๋” ๋†’์€ ํ’ˆ์งˆ์ธ์ง€๋ฅผ ์ •ํ™•ํžˆ ์˜ˆ์ธกํ•œ ๋น„์œจ์„ ์˜๋ฏธํ•œ๋‹ค.

์ฃผ์š” ๊ฒฐ๊ณผ

๋ชจ๋ธ ์Œ๋ณ„ ์ •ํ™•๋„
ํ…์ŠคํŠธโ€‘์ „์šฉ LLM ๋ฒ ์ด์Šค๋ผ์ธ 70.04โ€ฏ%
TRACEโ€‘์ „์šฉ ๊ตฌ์กฐ์  ๋ณด์ƒ ๋ชจ๋ธ 68.20โ€ฏ%
ํ…์ŠคํŠธโ€ฏ+โ€ฏTRACE ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ 80.17โ€ฏ%
  • ๊ตฌ์กฐ์  ๋ณด์ƒ ๋ชจ๋ธ๋งŒ ์‚ฌ์šฉํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ํ…์ŠคํŠธโ€‘์ „์šฉ ๋ฒ ์ด์Šค๋ผ์ธ๊ณผ ๊ฑฐ์˜ ๋™์ผํ•œ ์ˆ˜์ค€(68.20โ€ฏ% vs. 70.04โ€ฏ%)์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€๋‹ค. ์ด๋Š” ๋Œ€ํ™”์˜ ๋™์ ยท๊ตฌ์กฐ์  ํŠน์„ฑ๋งŒ์œผ๋กœ๋„ ํ˜‘์—… ์„ฑ๊ณต์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์ถฉ๋ถ„ํžˆ ๊ฐ•๋ ฅํ•œ ์‹ ํ˜ธ์ž„์„ ๋ณด์—ฌ์ค€๋‹ค.
  • ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์€ ๋‘ ์‹ ํ˜ธ๋ฅผ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์–ด 80.17โ€ฏ%๋ผ๋Š” ์ตœ๊ณ  ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜์˜€๋‹ค. ์ด๋Š” ํ…์ŠคํŠธ ๋‚ด์šฉ๊ณผ ๋Œ€ํ™” ํ๋ฆ„(์—ญ๋™์„ฑ)์ด ์ƒํ˜ธ ๋ณด์™„์ ์ด๋ผ๋Š” ๊ฐ€์„ค์„ ์‹ค์ฆ์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•œ๋‹ค.

๋…ผ๋ฌธ์˜ ์˜์˜ ๋ฐ ํ–ฅํ›„ ํ™œ์šฉ ๋ฐฉ์•ˆ

  1. ํ”„๋ผ์ด๋ฒ„์‹œ ๋ณดํ˜ธ
    • TRACE๋Š” ํ…์ŠคํŠธ ์ž์ฒด๊ฐ€ ์•„๋‹ˆ๋ผ ์ž„๋ฒ ๋”ฉ ๊ถค์ ์˜ ๊ธฐํ•˜ํ•™์  ํŠน์„ฑ๋งŒ์„ ์ด์šฉํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์›๋ณธ ๋Œ€ํ™” ๋‚ด์šฉ์ด ์™ธ๋ถ€์— ๋…ธ์ถœ๋˜์ง€ ์•Š์œผ๋ฉฐ, ๋ฏผ๊ฐํ•œ ์ •๋ณด๋ฅผ ํฌํ•จํ•œ ๋Œ€ํ™”์—์„œ๋„ ํ”„๋ผ์ด๋ฒ„์‹œ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ชจ๋ธ ์ •๋ ฌ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
  2. ์ง„๋‹จ ๋„๊ตฌ๋กœ์„œ์˜ ํ™œ์šฉ
    • ๋Œ€ํ™”๊ฐ€ ์ง„ํ–‰๋˜๋Š” ๋™์•ˆ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ถค์ ์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๋ฉด, ํ˜‘์—…์ด ์ €์กฐํ•ด์ง€๋Š” ์‹œ์ (์˜ˆ: ๊ถค์ ์ด ๊ธ‰๊ฒฉํžˆ ๋ณ€ํ•˜๊ฑฐ๋‚˜ ๋น„์ •์ƒ์ ์ธ ์ง„๋™์„ ๋ณด์ด๋Š” ๊ตฌ๊ฐ„)์„ ์ฆ‰์‹œ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ๋Œ€ํ™” ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์ž๊ฐ€ ๋ฌธ์ œ ์ƒํ™ฉ์„ ๋น ๋ฅด๊ฒŒ ํŒŒ์•…ํ•˜๊ณ , ๋Œ€ํ™” ์ „๋žต์„ ์ˆ˜์ •ํ•˜๊ฑฐ๋‚˜ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ ์ ˆํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋Š” ๋ฐ ์œ ์šฉํ•œ ์ง„๋‹จ ํˆด๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
  3. ๋‹ค์–‘ํ•œ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ™˜๊ฒฝ์œผ๋กœ์˜ ํ™•์žฅ
    • ํ˜„์žฌ ์—ฐ๊ตฌ๋Š” ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๋Œ€ํ™”์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์ง€๋งŒ, ๋™์ผํ•œ ๊ธฐํ•˜ํ•™์  ์ ‘๊ทผ์€ ์Œ์„ฑ ๋Œ€ํ™”, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธํ„ฐํŽ˜์ด์Šค, ์ธ๊ฐ„โ€‘๋กœ๋ด‡ ํ˜‘์—… ๋“ฑ ๋‹ค์–‘ํ•œ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ™˜๊ฒฝ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค. ํŠนํžˆ, ์‹œ๊ฐ์  ํ–‰๋™์ด๋‚˜ ์ œ์Šค์ฒ˜์™€ ๊ฐ™์€ ๋น„์–ธ์–ด์  ์‹ ํ˜ธ๋ฅผ ์ž„๋ฒ ๋”ฉํ•˜์—ฌ ๊ถค์ ์— ํฌํ•จ์‹œํ‚ค๋ฉด, ๋”์šฑ ํ’๋ถ€ํ•œ ํ˜‘์—… ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ด๋‹ค.
  4. ํ•™์Šต ํšจ์œจ์„ฑ ๋ฐ ๋น„์šฉ ์ ˆ๊ฐ
    • ํ…์ŠคํŠธโ€‘์ „์šฉ ๋ณด์ƒ ๋ชจ๋ธ์€ ๋Œ€๊ทœ๋ชจ LLM์„ ๊ทธ๋Œ€๋กœ ํ™œ์šฉํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์—ฐ์‚ฐ ๋น„์šฉ์ด ๋†’๋‹ค. ๋ฐ˜๋ฉด, TRACE๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๊ฐ€๋ฒผ์šด ๊ธฐํ•˜ํ•™์  ์—ฐ์‚ฐ๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ๊ฐ•๋ ฅํ•œ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜๋ฏ€๋กœ, ์—ฐ์‚ฐ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ ˆ๊ฐํ•˜๋ฉด์„œ๋„ ๋†’์€ ์ •๋ ฌ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ฒฐ๋ก 

๋ณธ ์—ฐ๊ตฌ๋Š” **โ€˜๋Œ€ํ™” ๊ธฐํ•˜ํ•™โ€™**์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ์‹œํ•จ์œผ๋กœ์จ, ๋Œ€ํ™”์˜ ๋‚ด์šฉ๋ฟ ์•„๋‹ˆ๋ผ ๋Œ€ํ™”๊ฐ€ ์ง„ํ–‰๋˜๋Š” ๋ฐฉ์‹ ์ž์ฒด๊ฐ€ ์„ฑ๊ณต์ ์ธ ํ˜‘์—…์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์„ ์ž…์ฆํ•˜์˜€๋‹ค. ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๋ณด์ƒ ์‹ ํ˜ธ์™€ ๊ตฌ์กฐ์ ยท๋™์  ์‹ ํ˜ธ๊ฐ€ ์„œ๋กœ ๋ณด์™„์ ์œผ๋กœ ์ž‘์šฉํ•œ๋‹ค๋Š” ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š”, ํ–ฅํ›„ ๋Œ€ํ™”ํ˜• AI ์‹œ์Šคํ…œ์„ ์„ค๊ณ„ํ•  ๋•Œ ๋‘ ๊ฐ€์ง€ ์ •๋ณด๋ฅผ ๋™์‹œ์— ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค. ๋˜ํ•œ, TRACE๋Š” ์›๋ณธ ํ…์ŠคํŠธ๋ฅผ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ํ”„๋ผ์ด๋ฒ„์‹œ๋ฅผ ๋ณด์žฅํ•˜๋ฉด์„œ๋„ ๊ฐ•๋ ฅํ•œ ์ •๋ ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ๊ณตํ•˜๊ณ , ์‹ค์‹œ๊ฐ„ ์ง„๋‹จ ๋„๊ตฌ๋กœ์„œ๋„ ํ™œ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์—์„œ ์‹ค์šฉ์  ๊ฐ€์น˜๋ฅผ ๊ฐ€์ง„๋‹ค. ์•ž์œผ๋กœ๋Š” ๋ณด๋‹ค ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์™€ ์‹ค์ œ ์‚ฌ์šฉ์ž์™€์˜ ์ธํ„ฐ๋ž™์…˜์„ ํฌํ•จํ•œ ๋Œ€๊ทœ๋ชจ ํ˜„์žฅ ์‹คํ—˜์„ ํ†ตํ•ด TRACE์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ํ”„๋ผ์ด๋ฒ„์‹œโ€‘์šฐ์„  ์ •๋ ฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์ด ๊ธฐ๋Œ€๋œ๋‹ค.


์œ„ ๋ฒˆ์—ญ์€ ์›๋ฌธ์˜ ์˜๋ฏธ์™€ ๊ตฌ์กฐ๋ฅผ ์ถฉ์‹คํžˆ ์œ ์ง€ํ•˜๋ฉด์„œ๋„, ์ตœ์†Œ 2,000์ž๋ฅผ ์ดˆ๊ณผํ•˜๋„๋ก ๋‚ด์šฉ์„ ํ™•์žฅยท๋ณด๊ฐ•ํ•œ ํ•œ๊ตญ์–ด ๋ฒ„์ „์ด๋‹ค.

View Original PDF on ArXiv