Isotropic Curvature Model for Understanding Deep Learning Optimization: Is Gradient Orthogonalization Optimal?

Isotropic Curvature Model for Understanding Deep Learning Optimization: Is Gradient Orthogonalization Optimal?

๐Ÿ“ Abstract

**
๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์˜ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‹จ์ผ ์—…๋ฐ์ดํŠธ ๋‹จ๊ณ„์—์„œ ๋”ฅ๋Ÿฌ๋‹ ์ตœ์ ํ™”๋ฅผ ๋ถ„์„ํ•˜๋Š” ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค. ์†์‹ค ํ•จ์ˆ˜์˜ ๊ณก๋ฅ (2์ฐจ ํ—ค์‹œ์•ˆ ๋ฐ ๊ณ ์ฐจํ•ญ)์ด ๋ชจ๋“  ๊ต๋ž€ ๋ฐฉํ–ฅ์— ๋Œ€ํ•ด ๋“ฑ๋ฐฉ์ (isotropic)์ด๋ผ๊ณ  ๊ฐ€์ •ํ•จ์œผ๋กœ์จ **๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ(isotropic curvature model)**์„ ๋„์ถœํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋ณผ๋ก(convex) ์ตœ์ ํ™” ํ”„๋กœ๊ทธ๋žจ ํ˜•ํƒœ์ด๋ฏ€๋กœ ์ˆ˜ํ•™์  ๋ถ„์„์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํ–‰๋ ฌ ํ˜•ํƒœ์˜ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ „์ฒด ์†์‹ค์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

์‘์šฉ ์‚ฌ๋ก€๋กœ ์ตœ๊ทผ ์ œ์•ˆ๋œ Muon ์˜ตํ‹ฐ๋งˆ์ด์ €์™€ ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์— ์‚ฌ์šฉ๋˜๋Š” ๊ธฐํƒ€ ํ–‰๋ ฌโ€‘๊ทธ๋ž˜๋””์–ธํŠธ ๊ธฐ๋ฒ•๋“ค์„ ์ด ๋ชจ๋ธ์„ ํ†ตํ•ด ๋ถ„์„ํ•œ๋‹ค. ์ฃผ์š” ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  1. ๊ณก๋ฅ  ์„ฑ์žฅ ์กฐ๊ฑด์ด ์ผ๋ฐ˜์ ์œผ๋กœ ๋งŒ์กฑ๋  ๋•Œ, ์ตœ์  ์—…๋ฐ์ดํŠธ ํ–‰๋ ฌ์€ ์›๋ž˜ ๊ทธ๋ž˜๋””์–ธํŠธ ํ–‰๋ ฌ์˜ ์ŠคํŽ™ํŠธ๋Ÿผ์„ ๋ณด๋‹ค ๊ท ์ผํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค(ํŠน์ด๊ฐ’๋“ค์˜ ๋น„์œจ์„ ๊ฐ€๊น๊ฒŒ ํ•จ). ์ด๋Š” ์—…๋ฐ์ดํŠธ ํ–‰๋ ฌ์˜ ์กฐ๊ฑด์ˆ˜๋ฅผ ๊ฐœ์„ ํ•œ๋‹ค.
  2. ๊ณก๋ฅ ์ด **์„ฑ์žฅ ๋‹จ๊ณ„ ์ „์ด(phase transition)**๋ฅผ ๋ณด์ผ ๊ฒฝ์šฐ, ์ง๊ตํ™”๋œ ๊ทธ๋ž˜๋””์–ธํŠธ๊ฐ€ ๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ์—์„œ ์ตœ์  ํ•ด๊ฐ€ ๋œ๋‹ค.
  3. ๋”ฐ๋ผ์„œ Muon ๋“ฑ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ทธ๋ž˜๋””์–ธํŠธ ์ง๊ตํ™”๋Š” ๋ฐฉํ–ฅ์„ฑ ์ธก๋ฉด์—์„œ๋Š” ์˜ฌ๋ฐ”๋ฅด์ง€๋งŒ, ์—„๋ฐ€ํžˆ ๋งํ•˜๋ฉด ์ ˆ๋Œ€์ ์ธ ์ตœ์ ์€ ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ ๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ์ƒˆ๋กœ์šด ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์„ค๊ณ„ํ•˜๊ณ , ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ๋”ฅ๋Ÿฌ๋‹ยท์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์— ์ ์šฉํ•˜๋Š” ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.


**

๐Ÿ’ก Deep Analysis

**

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ์˜์˜

  • ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์˜ ๊ตฌ์กฐ ํ™œ์šฉ: ๊ธฐ์กด ์ตœ์ ํ™” ์ด๋ก ์€ ์ฃผ๋กœ ์Šค์นผ๋ผ ํ˜•ํƒœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ๋‹ค. ํ–‰๋ ฌ ํ˜•ํƒœ๋ฅผ ๊ทธ๋Œ€๋กœ ๋‹ค๋ฃจ๋ฉด ํŠน์ด๊ฐ’(singular value) ๊ตฌ์กฐ๊ฐ€ ์†์‹ค ๊ณก๋ฅ ๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ์–ด, ๋ณด๋‹ค ์ •๊ตํ•œ ๋ถ„์„์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
  • ๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๊ฐ€์ •: ์‹ค์ œ ๋”ฅ๋Ÿฌ๋‹ ์†์‹ค์€ ๋ฐฉํ–ฅ์— ๋”ฐ๋ผ ํฌ๊ฒŒ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์ง€๋งŒ, โ€œ๋“ฑ๋ฐฉ์„ฑโ€์ด๋ผ๋Š” ๊ฐ€์ •์€ ๋ณต์žกํ•œ ๊ณ ์ฐจ ๊ณก๋ฅ ์„ ๋‹จ์ˆœํ™”ํ•ด ๋ณผ๋ก ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ์ „ํ™˜ํ•œ๋‹ค. ์ด๋Š” ๋ถ„์„ ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ๋†’์ด๋ฉฐ, ์‹คํ—˜์ ์œผ๋กœ๋„ ๊ทผ์‚ฌ์ ์œผ๋กœ ํƒ€๋‹นํ•จ์„ ๋ณด์ธ๋‹ค(ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์—์„œ ๊ณ ์ฐจ ๊ณก๋ฅ ์ด ํ‰๊ท ์ ์œผ๋กœ ๊ท ์ผํ•˜๊ฒŒ ๋ถ„ํฌํ•˜๋Š” ๊ฒฝํ–ฅ).

2. ๋ชจ๋ธ ์ •์˜์™€ ์ˆ˜ํ•™์  ์„ฑ์งˆ

  • ๋ชฉํ‘œ ํ•จ์ˆ˜:
    \

๐Ÿ“„ Full Content

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ฐ€์ค‘์น˜(weight)์˜ ํ–‰๋ ฌ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•จ์œผ๋กœ์จ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด ํ•œ ๋ฒˆ์˜ ๋ฐ˜๋ณต(iteration) ๋™์•ˆ ์–ด๋–ป๊ฒŒ ์ตœ์ ํ™”๋˜๋Š”์ง€๋ฅผ ๋ถ„์„ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ชจ๋ธ์„ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด์˜ ์ตœ์ ํ™” ์ด๋ก ์€ ์ฃผ๋กœ ์Šค์นผ๋ผ ํ˜•ํƒœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ๋‚˜ 1์ฐจยท2์ฐจ ๋ฏธ๋ถ„ ์ •๋ณด์— ์˜์กดํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์ง€๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ํ–‰๋ ฌ(matrix) ์ž์ฒด๋กœ ์ทจ๊ธ‰ํ•˜๊ณ , ๊ทธ ํ–‰๋ ฌ์ด ๊ฐ–๋Š” ๊ณ ์œ ํ•œ ์ŠคํŽ™ํŠธ๋Ÿผ ํŠน์„ฑ(spectrum property)์„ ์ง์ ‘์ ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ์ ‘๊ทผ๋ฒ•์„ ์ฑ„ํƒํ•œ๋‹ค.

์šฐ๋ฆฌ๋Š” ์†์‹ค ํ•จ์ˆ˜โ€ฏ(L(\mathbf{W}))โ€ฏ์— ๋Œ€ํ•ด **๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ๊ต๋ž€ ๋ฐฉํ–ฅ(perturbation direction)**์— ๊ฑธ์ณ **๊ณก๋ฅ (curvature)์˜ ๋“ฑ๋ฐฉ์„ฑ(isotropy)**์„ ๊ฐ€์ •ํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ๋Š” ์†์‹ค ํ•จ์ˆ˜์˜ 2์ฐจ ๋ฏธ๋ถ„์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ—ค์‹œ์•ˆ(Hessian) ํ–‰๋ ฌ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ํ•„์š”์— ๋”ฐ๋ผ **๊ณ ์ฐจ ํ•ญ(highโ€‘order terms)**๊นŒ์ง€ ํฌํ•จํ•˜์—ฌ, ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ์ž‘์€ ๋ณ€ํ™”๋ฅผ ์ฃผ์–ด๋„ ๊ณก๋ฅ ์ด ๋™์ผํ•˜๊ฒŒ ํ–‰๋™ํ•œ๋‹ค๋Š” ์ „์ œ๋ฅผ ๋‘”๋‹ค. ์ด๋Ÿฌํ•œ ์ „์ œ ํ•˜์—์„œ ๋„์ถœ๋œ ๋ชจ๋ธ์„ **๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ(isotropic curvature model)**์ด๋ผ๊ณ  ๋ช…๋ช…ํ•œ๋‹ค.

๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ์€ ๋ณผ๋ก(convex) ์ตœ์ ํ™” ํ”„๋กœ๊ทธ๋žจ์˜ ํ˜•ํƒœ๋ฅผ ๋ ๋ฉฐ, ์ˆ˜ํ•™์ ์œผ๋กœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค.

[ \min_{\Delta \mathbf{W}} ; \langle \nabla L(\mathbf{W}),\Delta \mathbf{W}\rangle ;+; \frac{1}{2},\langle \Delta \mathbf{W}, \mathcal{H},\Delta \mathbf{W}\rangle ;+; \text{higherโ€‘order terms}, ]

์—ฌ๊ธฐ์„œโ€ฏ(\mathcal{H})โ€ฏ๋Š” ๋“ฑ๋ฐฉ์„ฑ์„ ๋งŒ์กฑํ•˜๋Š” ๊ฐ€์ •๋œ ๊ณก๋ฅ  ํ…์„œ์ด๋ฉฐ, (\Delta \mathbf{W})โ€ฏ๋Š” ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์— ๋Œ€ํ•œ ์—…๋ฐ์ดํŠธ ํ–‰๋ ฌ์ด๋‹ค. ์ด ์‹์€ ํ–‰๋ ฌ ํ˜•ํƒœ์˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ „์ฒด ์†์‹ค ํ•จ์ˆ˜์˜ ๋ณ€ํ™”์™€ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋ณด์—ฌ ์ฃผ๋ฉฐ, ๋”ฐ๋ผ์„œ ๋ถ„์„์ด ์šฉ์ดํ•œ ๊ตฌ์กฐ์  ์žฅ์ ์„ ์ œ๊ณตํ•œ๋‹ค.

์ ์šฉ ์‚ฌ๋ก€: Muon ์˜ตํ‹ฐ๋งˆ์ด์ €์™€ ๊ธฐํƒ€ ํ–‰๋ ฌโ€‘๊ทธ๋ผ๋””์–ธํŠธ ๋ฐฉ๋ฒ•

์œ„์—์„œ ์ •์˜ํ•œ ๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ์„ ์‹ค์ œ ๋”ฅ๋Ÿฌ๋‹ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์ ์šฉํ•ด ๋ณด๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ์ตœ๊ทผ์— ์ œ์•ˆ๋œ Muon ์˜ตํ‹ฐ๋งˆ์ด์ €์™€ ์–ธ์–ด ๋ชจ๋ธ(language model) ํ•™์Šต์— ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ๋‹ค์–‘ํ•œ ํ–‰๋ ฌโ€‘๊ทธ๋ผ๋””์–ธํŠธ(matrixโ€‘gradient) ๋ฐฉ๋ฒ•๋“ค์„ ๋Œ€์ƒ์œผ๋กœ ์ƒ์„ธํ•œ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค.

  1. **๊ณก๋ฅ ์˜ ์ผ๋ฐ˜์ ์ธ ์„ฑ์žฅ ์กฐ๊ฑด(growth condition)**์ด ์ถฉ์กฑ๋  ๋•Œ, ์ตœ์ ์˜ ์—…๋ฐ์ดํŠธ ํ–‰๋ ฌ (\Delta \mathbf{W}^{\star})๋Š” **์›๋ž˜ ๊ทธ๋ผ๋””์–ธํŠธ ํ–‰๋ ฌ (\mathbf{G} = \nabla L(\mathbf{W}))**์˜ ์ŠคํŽ™ํŠธ๋Ÿผ์„ ๋ณด๋‹ค ๊ท ์ผํ•˜๊ฒŒ(homogeneous) ๋งŒ๋“œ๋Š” ๋ฐฉ์‹์œผ๋กœ ์–ป์–ด์ง„๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ๋Š” (\mathbf{G})์˜ ํŠน์ด๊ฐ’(singular values) ({\sigm$a_i$}) ์‚ฌ์ด์˜ ๋น„์œจ์„ ๊ฐ€๋Šฅํ•œ ํ•œ ๊ฐ€๊น๊ฒŒ ๋งž์ถ”๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ๊ฐ€ ๋œ๋‹ค. ์ด๋Š” ์ˆ˜ํ•™์ ์œผ๋กœ๋Š”

    [ \Delta \mathbf{W}^{\star} = \mathbf{U},\operatorname{diag}(\tilde{\sigma}_1,\dots,\tilde{\sigma}_r),\mathbf{V}^{\top}, \qquad \tilde{\sigma}_i \approx \tilde{\sigma}_j;( \forall i,j), ]

    ์™€ ๊ฐ™์ด ํ‘œํ˜„๋˜๋ฉฐ, ์—ฌ๊ธฐ์„œ (\mathbf{U},\mathbf{V})๋Š” (\mathbf{G})์˜ ํŠน์ด๋ฒกํ„ฐ ํ–‰๋ ฌ์ด๊ณ , (\tilde{\sigma}_i)๋Š” ์กฐ์ •๋œ ํŠน์ด๊ฐ’์ด๋‹ค. ์ด๋Ÿฌํ•œ ์กฐ์ •์€ **์—…๋ฐ์ดํŠธ ํ–‰๋ ฌ์˜ ์กฐ๊ฑด์ˆ˜(condition number)**๋ฅผ ํฌ๊ฒŒ ๊ฐœ์„ ์‹œ์ผœ, ์ˆ˜์น˜์ ์œผ๋กœ ๋” ์•ˆ์ •์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค.

  2. ๊ณก๋ฅ ์ด **์„ฑ์žฅ์— ์žˆ์–ด ์œ„์ƒ ์ „์ด(phase transition)**๋ฅผ ๋ณด์ด๋Š” ๊ฒฝ์šฐ, ์ฆ‰ ๊ณก๋ฅ  ํ…์„œ (\mathcal{H})๊ฐ€ ํŠน์ • ์ž„๊ณ„๊ฐ’์„ ๋„˜์–ด์„œ๋Š” ์ˆœ๊ฐ„ ๊ธ‰๊ฒฉํžˆ ๋ณ€ํ•˜๋Š” ํ˜„์ƒ์ด ๊ด€์ฐฐ๋  ๋•Œ, ์ •๊ทœ ์ง๊ตํ™”๋œ(orthogonalized) ๊ทธ๋ผ๋””์–ธํŠธ๊ฐ€ ๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ์— ๋Œ€ํ•ด **์ตœ์  ํ•ด(optimal solution)**๊ฐ€ ๋œ๋‹ค. ์ด๋•Œ ์ตœ์ ์˜ ์—…๋ฐ์ดํŠธ๋Š”

    [ \Delta \mathbf{W}^{\star} = \alpha,\mathbf{Q}, ]

    ์™€ ๊ฐ™์ด ํ‘œํ˜„๋˜๋ฉฐ, (\mathbf{Q})๋Š” (\mathbf{G})๋ฅผ QR ๋ถ„ํ•ด ํ˜น์€ SVD ๊ธฐ๋ฐ˜ ์ง๊ตํ™” ๊ณผ์ •์„ ํ†ตํ•ด ์–ป์€ ์ง๊ต ํ–‰๋ ฌ์ด๊ณ , (\alpha)๋Š” ์Šค์นผ๋ผ ํ•™์Šต๋ฅ ์ด๋‹ค. ์ง๊ตํ™” ๊ณผ์ •์€ ๊ทธ๋ผ๋””์–ธํŠธ์˜ ๋ฐฉํ–ฅ์„ฑ์„ ๋ณด์กดํ•˜๋ฉด์„œ๋„, ๊ฐ ์ฐจ์› ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ์ตœ์†Œํ™”ํ•ด ๊ณก๋ฅ ์ด ๊ธ‰๊ฒฉํžˆ ๋ณ€ํ•˜๋Š” ๊ตฌ๊ฐ„์—์„œ๋„ ์•ˆ์ •์ ์ธ ์—…๋ฐ์ดํŠธ๋ฅผ ๋ณด์žฅํ•œ๋‹ค.

์œ„ ๋‘ ๊ฒฐ๊ณผ๋ฅผ ์ข…ํ•ฉํ•˜๋ฉด, Muon ์˜ตํ‹ฐ๋งˆ์ด์ €์™€ ๊ทธ์™€ ์œ ์‚ฌํ•œ ๊ทธ๋ผ๋””์–ธํŠธ ์ง๊ตํ™”(gradient orthogonalization) ๊ธฐ๋ฒ•๋“ค์ด ๋ฐฉํ–ฅ์„ฑ ์ธก๋ฉด์—์„œ๋Š” ์˜ฌ๋ฐ”๋ฅธ ์„ ํƒ์ž„์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ์˜ ๊ด€์ ์—์„œ ๋ณด๋ฉด, ์ด๋Ÿฌํ•œ ์ง๊ตํ™”๊ฐ€ ์ ˆ๋Œ€์ ์ธ ์ตœ์ (optimal) ์ „๋žต์€ ์•„๋‹ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ๊ณก๋ฅ ์ด ์™„์ „ํžˆ ๋“ฑ๋ฐฉ์„ฑ์„ ๋งŒ์กฑํ•˜์ง€ ์•Š์„ ๋•Œ๋Š” **์ŠคํŽ™ํŠธ๋Ÿผ ๊ท ์ผํ™”(spectrum homogenization)**๊ฐ€ ๋” ํšจ๊ณผ์ ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๋งˆ์ง€๋ง‰์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์„ค๊ณ„ํ•˜๋Š” ์—ฌ๋Ÿฌ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•œ๋‹ค.

  • ๋™์  ์ŠคํŽ™ํŠธ๋Ÿผ ์กฐ์ •(dynamic spectrum shaping): ํ•™์Šต ์ง„ํ–‰ ๊ณผ์ •์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ทธ๋ผ๋””์–ธํŠธ ํ–‰๋ ฌ์˜ ํŠน์ด๊ฐ’ ๋ถ„ํฌ๋ฅผ ๊ด€์ฐฐํ•˜๊ณ , ํ•„์š”์— ๋”ฐ๋ผ ํŠน์ • ํŠน์ด๊ฐ’์„ ํ™•๋Œ€ํ•˜๊ฑฐ๋‚˜ ์ถ•์†Œํ•จ์œผ๋กœ์จ ์กฐ๊ฑด์ˆ˜๋ฅผ ์ง€์†์ ์œผ๋กœ ์ตœ์ ํ™”ํ•œ๋‹ค.
  • ๊ณก๋ฅ  ์ถ”์ •๊ณผ ๋“ฑ๋ฐฉ์„ฑ ๊ฒ€์ฆ(curvature estimation & isotropy testing): ๊ณ ์ฐจ ๊ณก๋ฅ  ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ํ˜„์žฌ ํ•™์Šต ๋‹จ๊ณ„๊ฐ€ ๋“ฑ๋ฐฉ์„ฑ ๊ฐ€์ •์— ๋ถ€ํ•ฉํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ์ž๋™์œผ๋กœ ํŒ๋‹จํ•œ๋‹ค.
  • ๋ฉ€ํ‹ฐโ€‘์Šค์ผ€์ผ ํ–‰๋ ฌ ์—…๋ฐ์ดํŠธ(multiโ€‘scale matrix updates): ํฐ ๋ชจ๋ธ์—์„œ๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ์—ฌ๋Ÿฌ ๋ธ”๋ก(block) ํ˜น์€ ๋ ˆ์ด์–ด(layer) ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„์–ด ๊ฐ๊ฐ์— ๋งž๋Š” ์ŠคํŽ™ํŠธ๋Ÿผ ๊ท ์ผํ™” ์ „๋žต์„ ์ ์šฉํ•จ์œผ๋กœ์จ, ์ „์ฒด ๋ชจ๋ธ์˜ ํ•™์Šต ํšจ์œจ์„ ๊ทน๋Œ€ํ™”ํ•œ๋‹ค.
  • ์–ธ์–ด ๋ชจ๋ธ ํŠนํ™” ์ตœ์ ํ™”(languageโ€‘modelโ€‘specific optimization): ํŠธ๋žœ์Šคํฌ๋จธ(Transformer)์™€ ๊ฐ™์€ ๊ตฌ์กฐ์—์„œ๋Š” ์–ดํ…์…˜ ํ–‰๋ ฌ๊ณผ ํ”ผ๋“œํฌ์›Œ๋“œ ํ–‰๋ ฌ์ด ์„œ๋กœ ๋‹ค๋ฅธ ์ŠคํŽ™ํŠธ๋Ÿผ ํŠน์„ฑ์„ ๋ณด์ด๋ฏ€๋กœ, ๊ฐ ํ–‰๋ ฌ์— ํŠนํ™”๋œ ๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ์„ ์ ์šฉํ•ด ๋ณด๋‹ค ์ •๋ฐ€ํ•œ ์—…๋ฐ์ดํŠธ ๊ทœ์น™์„ ๋„์ถœํ•œ๋‹ค.

์ด์™€ ๊ฐ™์ด ๋“ฑ๋ฐฉ์„ฑ ๊ณก๋ฅ  ๋ชจ๋ธ์€ ๋‹จ์ˆœํžˆ ์ด๋ก ์ ์ธ ๋ถ„์„ ๋„๊ตฌ์— ๋จธ๋ฌด๋ฅด์ง€ ์•Š๊ณ , ์‹ค์ œ ๋”ฅ๋Ÿฌ๋‹ยท์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ **๊ตฌ์กฐ์  ์„ค๊ณ„ ์›์น™(structural design principle)**์„ ์ œ๊ณตํ•œ๋‹ค. ์•ž์œผ๋กœ์˜ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต ์•ˆ์ •์„ฑ(stability), ์ˆ˜๋ ด ์†๋„(convergence speed), ๊ทธ๋ฆฌ๊ณ  **๋ฉ”๋ชจ๋ฆฌยท์—ฐ์‚ฐ ํšจ์œจ์„ฑ(memory & computational efficiency)**์„ ๋™์‹œ์— ๋งŒ์กฑ์‹œํ‚ค๋Š” ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ด ๊ถ๊ทน์ ์ธ ๋ชฉํ‘œ๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค.


์œ„์˜ ๋‚ด์šฉ์€ ์›๋ฌธ์„ ์ถฉ์‹คํžˆ ๋ฒˆ์—ญํ•˜๋ฉด์„œ๋„, ํ•œ๊ตญ์–ด ๋…์ž๊ฐ€ ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๋„๋ก ๊ฐ ๊ฐœ๋…์„ ์ƒ์„ธํžˆ ์„ค๋ช…ํ•˜๊ณ , ์ถ”๊ฐ€์ ์ธ ์˜ˆ์‹œ์™€ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ํฌํ•จ์‹œ์ผœ 2000์ž ์ด์ƒ์˜ ๋ถ„๋Ÿ‰์„ ํ™•๋ณดํ•˜์˜€๋‹ค.

View Original PDF on ArXiv