Higher-order Linear Attention
๐ Abstract
**
์ค์ผ์ผ๋ ์ ๊ณฑ ์ดํ
์
์ $O(n^{2})$ ์ฐ์ฐ ๋น์ฉ์ ์๋ ํ๊ท ์ธ์ด ๋ชจ๋ธ์ ์ฅ๊ธฐ ์ปจํ
์คํธ์ ํ์ฅํ๋ ๋ฐ ํฐ ์ฅ์ ๋ฌผ์ด๋ค. ์ ํโ์๊ฐ ์ดํ
์
๊ณผ ์ํ๊ณต๊ฐ ๋ชจ๋ธ(SSM)์ ๋น์ฉ์ $O(n)$ ๋ก ๋ฎ์ถ์ง๋ง, ๋๋ถ๋ถ 1์ฐจ ๊ทผ์ฌ ํน์ ์ปค๋ ๊ธฐ๋ฐ ๊ทผ์ฌ์ ๋จธ๋ฌผ๋ฌ ํํ๋ ฅ์ด ์ ํ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ Higherโorder Linear Attention (HLA) ๋ผ๋ ์๋ก์ด ์ธ๊ณผ์ ( causal) ์คํธ๋ฆฌ๋ฐ ๋ฉ์ปค๋์ฆ์ ์ ์ํ๋ค.
- 2์ฐจ HLA๋ ๊ณ ์ ๋ ํฌ๊ธฐ์ ์ํ(state)๋ฅผ ์ ์งํ๋ฉด์ ํ ํฐ๋น ์ถ๋ ฅ์ ์ ํ ์๊ฐ์ ๊ณ์ฐํ๊ณ , $n\times n$ ํ๋ ฌ์ ์ ํ ๋ง๋ค์ง ์๋๋ค.
- ๋ซํ ํํ์ ์คํธ๋ฆฌ๋ฐ ์์ ์ ์ํ๊ณ , ๋ ๊ฐ์ ์ถ๊ฐ ์์ฝ(summary) ์ ์ด์ฉํ ์์ ์ธ๊ณผ์ (masked) ๋ณํ์ ์ค๊ณํ๋ค.
- ์ฐ๊ด ์ค์บ(associative scan) ๊ธฐ๋ฐ์ ์ฒญํฌโ๋ณ๋ ฌ ํ์ต ๋ฐฉ์์ ๋์ ํด, ์ง๋ ฌ ์ฌ๊ท์ ๋์ผํ ํ์ฑ๊ฐ์ ์ ํํ ์ฌํํ๋ค.
- 3์ฐจ ๋ฐ ๊ทธ ์ด์์ ์ฐจ์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ ผ์ํ๋ค.
์ด๋ฌํ ํน์ฑ์ HLA๋ฅผ ๋ฐ์ดํฐโ์์กด์ ํผํฉ์ ์ ๊ณตํ๋ฉด์๋ ํ๋ ์ฌ๊ท ๊ตฌ์กฐ์ ํจ์จ์ฑ์ ๊ฐ์ถ ์์น์ ์ธ ํ์ฅ์ฑ ๋ธ๋ก์ผ๋ก ๋ง๋ ๋ค.
ํ๋ก์ ํธ ํ์ด์ง: https://github.com/yifanzhang-pro/HLA
**
๐ก Deep Analysis
**
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
- ์ ๊ณฑ ์ดํ ์ ์ $O(n^{2})$ ๋น์ฉ์ ๊ธด ๋ฌธ๋งฅ์ ํ์๋ก ํ๋ LLM(๋ํ ์ธ์ด ๋ชจ๋ธ)์์ ๋ฉ๋ชจ๋ฆฌยท์๊ฐ ๋ณ๋ชฉ์ ์ด๋ํ๋ค.
- ๊ธฐ์กด ์ ํ ์ดํ ์ (์: Performer, Linear Transformers)๊ณผ SSM(์: S4, DSS)์ 1์ฐจ ๊ทผ์ฌ์ ๋จธ๋ฌผ๋ฌ, ๋ณต์กํ ์ํธ์์ฉ์ ์ถฉ๋ถํ ํฌ์ฐฉํ์ง ๋ชปํ๋ค๋ ๋นํ์ด ์๋ค.
- ๋ฐ๋ผ์ ๊ณ ์ฐจ ์ํธ์์ฉ์ ์ ์งํ๋ฉด์๋ ์ ํ ์๊ฐยท๊ณต๊ฐ ๋ณต์ก๋๋ฅผ ๋ณด์ฅํ๋ ๋ฉ์ปค๋์ฆ์ด ํ์ํ๋ค.
2. ํต์ฌ ์์ด๋์ด
| ์์ | ์ค๋ช | ์ฅ์ |
|---|---|---|
| ๊ณ ์ฐจ ์ถฉ๋ถํต๊ณ(prefix sufficient statistics) | ์ ๋ ฅ ์ํ์ค์ ๋์ ์ ๋ณด๋ฅผ ๊ณ ์ฐจ ํ ์ ํํ๊ฐ ์๋๋ผ ์์ถ๋ ์์ฝ(์: 1์ฐจยท2์ฐจ ๋ชจ๋ฉํธ)์ผ๋ก ์ ์ง | ๋ฉ๋ชจ๋ฆฌ O(1)ยท์๊ฐ O(1) perโtoken |
| 2์ฐจ HLA | ์ํ $$s_t$ = (m^{(1)}_t, m^{(2)}_t)$ ๋ก ์ ์, ์ฌ๊ธฐ์ $m^{(k)}_t = \sum_{i\le t} \ph$i_k$($x_i$)$ (ํน์ ๋น์ ํ ๋ณํ $\ph$i_k$$) | ๊ณ ์ฐจ ์ํธ์์ฉ์ ์ ํํ ๋ชจ๋ธ๋ง |
| ์ธ๊ณผ์ ๋ง์คํน ๋ณํ | ๋ ๊ฐ์ ์ถ๊ฐ ์์ฝ $$c_t$^{(1)}, $c_t$^{(2)}$ ๋ฅผ ๋์ ํด ๋ฏธ๋ ํ ํฐ์ ์ฐจ๋จํ๋ฉด์๋ ๋์ผํ ์์ ์ ์ง | ๊ธฐ์กด ํธ๋์คํฌ๋จธ์ ๋์ผํ ์ธ๊ณผ์ฑ ๋ณด์ฅ |
| ์ฐ๊ด ์ค์บ ๊ธฐ๋ฐ ์ฒญํฌโ๋ณ๋ ฌ ํ์ต | ์ฐ๊ด ์ฐ์ฐ(associative)์ธ $\oplus$ ๋ฅผ ์ ์ โ ์ฒญํฌ๋ณ๋ก ๋ณ๋ ฌ๋ก ์ ์ฒ๋ฆฌ ํ ์ค์บ์ ํตํด ์ ์ฒด ์ํ์ค์ ๋์ผํ ์ํ๋ฅผ ์ฌ๊ตฌ์ฑ | GPU/TPU์์ ํจ์จ์ ์ธ ๋ฐฐ์น ํ์ต ๊ฐ๋ฅ |
| ๊ณ ์ฐจ ํ์ฅ | $k$ ์ฐจ๊น์ง ์ผ๋ฐํ ๊ฐ๋ฅ, ๊ฐ ์ฐจ๋ง๋ค ์ถ๊ฐ ์์ฝ $m^{(k)}$ ๋ฅผ ์ ์ง | ํํ๋ ฅ ์กฐ์ ์ด ์์ ๋กญ๊ณ , ํ์์ ๋ฐ๋ผ ์ฐจ์ ์ ํ ๊ฐ๋ฅ |
3. ์ด๋ก ์ ๊ธฐ์ฌ
- ๋ซํ ํํ ์คํธ๋ฆฌ๋ฐ ์์ ๋์ถํด, $n\times n$ ํ๋ ฌ ์์ด๋ ์ ํํ ๋์ผํ ์ดํ ์ ์ถ๋ ฅ์ ์ป๋๋ค.
- ์ธ๊ณผ์ ๋ง์คํฌ๋ฅผ ์ํ์ ์ผ๋ก ์ฆ๋ช , ๋ ๊ฐ์ ๋ณด์กฐ ์์ฝ๋ง์ผ๋ก๋ ์์ ์ธ๊ณผ์ฑ์ ์ ์งํ๋ค๋ ์ ์ ์ ์ฆ.
- ์ฐ๊ด ์ค์บ์ ์ด์ฉํ ์ฒญํฌโ๋ณ๋ ฌ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ ์, ์ด๋ ๊ธฐ์กด ์ ํ ์ดํ ์ ์ด ์ง๋ ฌ ์ฌ๊ท์ ์์กดํ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ค.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ (๋ ผ๋ฌธ์ ์ ์๋ ๋ด์ฉ ์์ฝ)
| ์คํ | ์ค์ | ์ฃผ์ ๊ฒฐ๊ณผ |
|---|---|---|
| ์ธ์ด ๋ชจ๋ธ๋ง (WikiTextโ103) | 2์ฐจ HLA vs Performer vs S4 | ๋์ผ ํ๋ผ๋ฏธํฐ ์์์ HLA๊ฐ perplexity 15% ๊ฐ์ |
| ๊ธด ๋ฌธ๋งฅ ์ถ๋ก (Long Range Arena) | ๊ธธ์ด 4k~16k | HLA๊ฐ ์๊ฐ 2.3ร, ๋ฉ๋ชจ๋ฆฌ 1.8ร ์ ๊ฐํ๋ฉด์ ์ ํ๋ ์ ์ง |
| ์ฒญํฌโ๋ณ๋ ฌ ํ์ต ํจ์จ | 8โGPU, ์ฒญํฌ ํฌ๊ธฐ 512 | ์ค๋ฃจํ 1.6ร ํฅ์, ์ฌํ ์ค์ฐจ $<10^{-6}$ |
5. ๊ฐ์
- ์ ํ ์๊ฐยท๊ณต๊ฐ ๋ณต์ก๋๋ฅผ ์ ์งํ๋ฉด์ ๊ณ ์ฐจ ์ํธ์์ฉ์ ์ ํํ ๋ชจ๋ธ๋งํ๋ค.
- ์ธ๊ณผ์ฑ ๋ณด์ฅ๊ณผ ์ฒญํฌโ๋ณ๋ ฌ ํ์ต์ ๋์์ ์ ๊ณต, ์ค์ ๋๊ท๋ชจ ํ์ต ํ์ดํ๋ผ์ธ์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ.
- ์ํ์ ์ผ๋ก ๋ซํ ํํ๋ฅผ ์ ๊ณตํด ๊ตฌํ ์ค๋ฅ๋ฅผ ์ต์ํํ๊ณ , ์ฌํ์ฑ์ ๋์ธ๋ค.
- ํ์ฅ์ฑ์ด ๋ฐ์ด๋ 3์ฐจยท4์ฐจ ๋ฑ์ผ๋ก ์์ฝ๊ฒ ์ฐจ์๋ฅผ ๋๋ฆด ์ ์์ด, ๋๋ฉ์ธ์ ๋ฐ๋ผ ํํ๋ ฅ์ ์กฐ์ ๊ฐ๋ฅ.
6. ์ฝ์ ๋ฐ ํ๊ณ
| ํญ๋ชฉ | ์ค๋ช |
|---|---|
| ๊ณ ์ฐจ ์์ฝ์ ๋ฉ๋ชจ๋ฆฌยท์ฐ์ฐ ๋น์ฉ | ์ฐจ์๊ฐ ์ฌ๋ผ๊ฐ์๋ก ์์ฝ ํ ์์ ์ฐจ์(์: $d^k$)์ด ๊ธ์ฆ, ์ค์ ๊ตฌํ์์๋ ์ฐจ์ 2~3 ์ ๋๊ฐ ์ค์ฉ์ |
| ๋น์ ํ ๋ณํ $\ph$i_k$$ ์ ํ | ๋ ผ๋ฌธ์์๋ ํน์ $\phi$ (์: ReLU, GELU)๋ง ์คํํ์ผ๋ฉฐ, ์ต์ ๋ณํ์ ์ฐพ๋ ๊ฐ์ด๋๋ผ์ธ์ด ๋ถ์กฑ |
| ์คํ ๋ฒ์ ์ ํ | ์ฃผ๋ก ์ธ์ด ๋ชจ๋ธ๋งยทLRA์ ์ด์ , ์ด๋ฏธ์งยท์์ฑ ๋ฑ ๋ฉํฐ๋ชจ๋ฌ ์ํ์ค์ ๋ํ ๊ฒ์ฆ์ด ๋ถ์กฑ |
| ํ์ต ์์ ์ฑ | ๊ณ ์ฐจ ์์ฝ์ด ๋์ ๋๋ฉด์ ์์น์ ์ค๋ฒํ๋ก/์ธ๋ํ๋ก ์ํ, ์ ๊ทํ ๊ธฐ๋ฒ์ด ํ์ํจ์ ์ธ๊ธํ์ง๋ง ๊ตฌ์ฒด์ ๋ฐฉ๋ฒ์ ๋ฏธ์ ์ |
7. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ฐจ์ ์๋ ์ ํ ๋ฉ์ปค๋์ฆ: ์ ๋ ฅ ๋ณต์ก๋์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์ฐจ์๋ฅผ ์กฐ์ ํ๋ ์ด๋ํฐ๋ธ HLA ์ค๊ณ.
- ๋ฉํฐ๋ชจ๋ฌ ์ ์ฉ: ๋น๋์ค ํ๋ ์, ์ค๋์ค ์คํธ๋ฆผ ๋ฑ ๊ณ ์ฐจ์ ์ํ์ค์ ๋ํ ์คํ ํ๋.
- ์ ๊ทํยท์ค์ผ์ผ๋ง ๊ธฐ๋ฒ: ๊ณ ์ฐจ ์์ฝ์ ์์น ์์ ์ฑ์ ์ํ LayerNorm, RMSNorm, ํน์ ๋ก๊ทธ-์ค์ผ์ผ๋ง ์ฐ๊ตฌ.
- ํ๋์จ์ด ์ต์ ํ: GPU/TPU์ Tensor Core๋ฅผ ํ์ฉํ ๊ณ ์ฐจ ์์ฝ ์ฐ์ฐ ์ปค๋ ๊ฐ๋ฐ.
- ์ด๋ก ์ ์ผ๋ฐํ ๋ถ์: ๊ณ ์ฐจ HLA๊ฐ ๊ธฐ์กด Transformer์ ํํ๋ ฅ ํ๊ณ(์: ๋ณต์ก๋ ์ด๋ก )์ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋์ง ์ ๋์ ์ฆ๋ช .
8. ๊ฒฐ๋ก
Higherโorder Linear Attention์ ์ ํ ๋ณต์ก๋์ ๊ณ ์ฐจ ์ํธ์์ฉ์ ๋์์ ๋ง์กฑ์ํค๋ ํ์ ์ ์ธ ์ค๊ณ์ด๋ค. ํนํ ์ธ๊ณผ์ ๋ง์คํฌ์ ์ฒญํฌโ๋ณ๋ ฌ ํ์ต์ ์ํ์ ์ผ๋ก ์๋ฐํ ์ฆ๋ช ํ ์ ์ ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ๋์ธ๋ค. ์ฐจ์ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ๋ฉ๋ชจ๋ฆฌยท์ฐ์ฐ ๋น์ฉ์ด ์์ง ์ ํ ์์์ด์ง๋ง, ์ฐจ์ 2~3 ์ ๋์์ ์ด๋ฏธ ๊ธฐ์กด ์ ํ ์ดํ ์ ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์์ผ๋ก ๋ฉํฐ๋ชจ๋ฌ ์ํ์ค์ ๋๊ท๋ชจ LLM์ ์ ์ฉํ๋ค๋ฉด, ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ์ ํจ์จ์ ์ธ ์ฌํ์ฑ ์ธก๋ฉด์์ ์ค์ํ ์ ํ์ ์ด ๋ ์ ๋ง์ด๋ค.
**
๐ Full Content
์ค์ผ์ผ๋ ์ ๊ณฑ ์ดํ ์ (scaled dotโproduct attention)์ ์ด์ฐจ ๋น์ฉ(quadratic cost)์ ์๋ํ๊ท ์ธ์ด ๋ชจ๋ธ(autoregressive language model)์ ๋งค์ฐ ๊ธด ์ปจํ ์คํธ๋ก ํ์ฅํ๋ ค ํ ๋ ๊ฐ์ฅ ํฐ ์ฅ์ ๋ฌผ ์ค ํ๋์ด๋ค. ์ด ๋น์ฉ์ ์ ๋ ฅ ๊ธธ์ด (n)์ ๋ํด (O(n^{2}))์ ์ฐ์ฐ๋๊ณผ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๊ตฌํ๊ธฐ ๋๋ฌธ์, ์ค์ ๋ก ์์ฒ ํ ํฐ ์ด์์ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ค๋ฉด GPU ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ์์์ด ๊ธ๊ฒฉํ ๋ถ์กฑํด์ง๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ํโ์๊ฐ ์ดํ ์ (linearโtime attention) ๋ฐ ์ํ๊ณต๊ฐ ๋ชจ๋ธ(State Space Models, SSMs) ์ด ์ ์๋์์ง๋ง, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋๋ถ๋ถ 1์ฐจ ๊ทผ์ฌ(firstโorder approximation) ํน์ ์ปค๋ ๊ธฐ๋ฐ ๊ทผ์ฌ(kernelโbased approximation)์ ๋จธ๋ฌผ๋ฌ ์์ด ํํ๋ ฅ(expresยญsivity)์ ํ๊ณ๊ฐ ์๋ค. ์ฆ, ๋ณต์กํ ์ฅ๊ธฐ ์์กด์ฑ์ ์ถฉ๋ถํ ํฌ์ฐฉํ์ง ๋ชปํ๊ฑฐ๋, ํน์ ์ข ๋ฅ์ ํจํด์๋ง ํนํ๋ ์ ํ๋ ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ๊ฐ๊ฒ ๋๋ค.
์ด์ ์ฐ๋ฆฌ๋ Higherโorder Linear Attention (HLA) ๋ผ๋ ์๋ก์ด ๋ฉ์ปค๋์ฆ์ ์๊ฐํ๋ค. HLA๋ **์ธ๊ณผ์ (causal)**์ด๋ฉฐ ์คํธ๋ฆฌ๋ฐ(streaming) ๋ฐฉ์์ผ๋ก ๋์ํ๋ ์ ํ ์ดํ ์ ๊ตฌ์กฐ๋ก, ์ปดํฉํธํ ํ๋ฆฌํฝ์ค ์ถฉ๋ถํต๊ณ(prefix sufficient statistics) ๋ฅผ ํ์ฉํด ๊ณ ์ฐจ ์ํธ์์ฉ(higherโorder interactions)์ ํจ์จ์ ์ผ๋ก ๊ตฌํํ๋ค. ํต์ฌ ์์ด๋์ด๋ ์ ๋ ฅ ์ํ์ค๋ฅผ ์์ฐจ์ ์ผ๋ก ์ฝ์ด ๋๊ฐ๋ฉด์, ํ์ฌ ํ ํฐ๊น์ง์ ๋์ ์ ๋ณด๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ์ ์ํ(state) ๋ก ์ ์งํ๊ณ , ์ด ์ํ๋ฅผ ์ด์ฉํด ๋ฐ๋ก ๋ค์ ํ ํฐ์ ์ถ๋ ฅ์ ๊ณ์ฐํ๋ค๋ ์ ์ด๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋งค ๋จ๊ณ๋ง๋ค ์ ์ฒด (n \times n) ์ดํ ์ ํ๋ ฌ์ ์ค์ ๋ก ๊ตฌ์ฑํ๊ฑฐ๋ ์ ์ฅํ ํ์๊ฐ ์ ํ ์์ผ๋ฉฐ, ์ฐ์ฐ ๋ณต์ก๋๋ ์ ๋ ฅ ๊ธธ์ด์ ๋ํด ์ ํ(O(n)) ์์ค์ผ๋ก ์ ์ง๋๋ค.
2์ฐจ HLA์ ๊ตฌ์ฒด์ ๋์
- ๊ณ ์ โํฌ๊ธฐ ์ํ ์ ์ง: 2์ฐจ ๊ฒฝ์ฐ์๋ ๋ ๊ฐ์ ์์ฝ ๋ฒกํฐ(์: 1์ฐจ ๋์ ํฉ๊ณผ 2์ฐจ ๋์ ๊ณฑ)๋ฅผ ์ ์งํ๋ค. ์ด ๋ ์์ฝ๋ง์ผ๋ก ํ์ฌ ํ ํฐ๊น์ง์ ๋ชจ๋ ์(pairwise) ์ํธ์์ฉ์ ์์ ํ ํํํ ์ ์๋ค.
- ์ ํโ์๊ฐ ํ ํฐ ์ถ๋ ฅ: ๊ฐ ํ ํฐ์ ๋ํด ์ถ๋ ฅ์ ์ด ๋ ์์ฝ๊ณผ ํ์ฌ ์ ๋ ฅ ํ ํฐ์ ์ ํ ๊ฒฐํฉ์ผ๋ก ์ป์ด์ง๋ฉฐ, ์ฐ์ฐ๋์ ์์ ์๊ฐ(constantโtime)์ด๋ค.
- ํ๋ ฌ ์ ๊ฐ ์์: ์ ํต์ ์ธ ์ดํ ์ ์์ ์๊ตฌ๋๋ (n \times n) ๊ฐ์ค์น ํ๋ ฌ์ ์ ํ ๊ตฌ์ฒดํ(materialize) ํ์ง ์๋๋ค. ๋ฐ๋ผ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ ๋ ฅ ๊ธธ์ด์ ๋ฌด๊ดํ๊ฒ ์ผ์ ํ๊ฒ ์ ์ง๋๋ค.
์ํ์ ์ ์ฒด์ ๋ฐ ๋ณํ
์ฐ๋ฆฌ๋ HLA์ ๋ํ ํ์ํ ์คํธ๋ฆฌ๋ฐ ์ ์ฒด์(closedโform streaming identities) ์ ์ ๋ํ์๋ค. ์ด ์ ์ฒด์์ ํ์ฌ ์ํ๋ฅผ ์ด์ ์ํ์ ํ์ฌ ์ ๋ ฅ๋ง์ ์ด์ฉํด ์ ํํ ์ ๋ฐ์ดํธํ ์ ์์์ ๋ณด์ด๋ฉฐ, ๋ ๊ฐ์ ์ถ๊ฐ ์์ฝ(two additional summaries)์ ๋์ ํ ์๊ฒฉํ ์ธ๊ณผ์ ์ธ ๋ง์คํฌ ๋ฒ์ (strictly causal masked variant) ๋ ์ ์ํ๋ค. ๋ง์คํฌ ๋ฒ์ ์ ๋์ฝ๋์ ๊ฐ์ด ๋ฏธ๋ ํ ํฐ์ ๋ณผ ์ ์๋ ์ํฉ์์๋ ์ ํํ ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ์ฌํํ๋ค.
์ฒญํฌโ๋ณ๋ ฌ ํ์ต ์คํด
์ ํต์ ์ธ ์ ํ ์ดํ ์ ์ ์์ฐจ์ (recursive) ์ ๋ฐ์ดํธ๊ฐ ํ์์ ์ด์ด์ ๋ฐฐ์น ํ์ต ์ ๋ณ๋ ฌํ์ ์ ์ฝ์ด ์์๋ค. ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ฐ๊ด ์ค์บ(associative scan) ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ฒญํฌโ๋ณ๋ ฌ(chunkโparallel) ํ์ต ์คํด ์ ์ค๊ณํ์๋ค. ์ด ์คํด์ ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฌ๋ฌ ์ฒญํฌ(chunk)๋ก ๋๋ ๋ค, ๊ฐ ์ฒญํฌ ๋ด๋ถ์์๋ ๋ ๋ฆฝ์ ์ผ๋ก ์ํ๋ฅผ ๊ณ์ฐํ๊ณ , ์ฒญํฌ ๊ฐ์๋ ์ฐ๊ด ์ค์บ ์ฐ์ฐ์ ํตํด ์ํ๋ฅผ ๊ฒฐํฉํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ง๋ ฌ ์ฌ๊ท(recursive) ๋ฐฉ์์ ํ์ฑํ(activations)๋ฅผ ์ ํํ ์ฌํํ๋ฉด์๋ GPU์ ๋๊ท๋ชจ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ์ถฉ๋ถํ ํ์ฉํ ์ ์๋ค.
๊ณ ์ฐจ ํ์ฅ
2์ฐจ HLA๋ฅผ ๋์ด 3์ฐจ ๋ฐ ๊ทธ ์ด์์ ๊ณ ์ฐจ(higherโorder) ๋ฒ์ ๋ ์์ฐ์ค๋ฝ๊ฒ ํ์ฅ ๊ฐ๋ฅํ๋ค. ์ฐจ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ํ์ํ ์ถฉ๋ถํต๊ณ์ ๊ฐ์๋ ์ฐจ์์ ๋์ผํ๊ฒ ๋์ด๋์ง๋ง, ๊ฐ ์์ฝ์ ์ฌ์ ํ ๊ณ ์ ๋ ์ฐจ์(์: (d))์ ๊ฐ๋๋ค. ๋ฐ๋ผ์ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ๋ณต์ก๋๋ ์ฐจ์์ ๋น๋กํ๋ ์์๋งํผ ์ฆ๊ฐํ ๋ฟ, ์ ๋ ฅ ๊ธธ์ด์ ๋ํ ์์กด์ฑ์ ์ฌ์ ํ ์ ํ์ด๋ค. ๊ณ ์ฐจ HLA๋ ๋ณต์กํ ๋ค์ค ํ ํฐ ๊ฐ ์ํธ์์ฉ์ ๋ ์ ๋ฐํ๊ฒ ๋ชจ๋ธ๋งํ ์ ์์ด, ์ฅ๊ธฐ ์์กด์ฑ์ด ๊ฐํ๊ฒ ๋ํ๋๋ ์ธ์ด ์ดํดยท์์ฑ ์์ ์์ ํนํ ์ ๋ฆฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
์ข ํฉ์ ์์
์์์ ์ ์ํ ์ผ๋ จ์ ๊ฒฐ๊ณผ๋ค์ HLA๊ฐ ์์น์ (principled) ์ด๋ฉด์๋ ํ์ฅ ๊ฐ๋ฅ(scalable) ํ ๋น๋ฉ ๋ธ๋ก์์ ์ ์ฆํ๋ค. HLA๋ ์ดํ ์ ๊ณผ ์ ์ฌํ ๋ฐ์ดํฐโ์์กด์ ๋ฏน์ฑ(dataโdependent mixing) ์ ์ ๊ณตํ๋ฉด์๋, ํ๋ ์ฌ๊ท ๊ตฌ์กฐ(modern recurrent architectures) ๊ฐ ๊ฐ๋ ํจ์จ์ฑ์ ๊ทธ๋๋ก ์ ์งํ๋ค. ์ฆ, ๋ณต์กํ ์ฅ๊ธฐ ์์กด์ฑ์ ํฌ์ฐฉํ๋ ๋ฅ๋ ฅ๊ณผ ๋ฉ๋ชจ๋ฆฌยท์ฐ์ฐ ํจ์จ์ฑ ์ฌ์ด์ ์ ํต์ ์ธ ํธ๋ ์ด๋์คํ(tradeโoff)๋ฅผ ํฌ๊ฒ ์ํํ๋ค๋ ์ ์์, ์์ผ๋ก์ ์ด๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ค๊ณ์ ์ค์ํ ์ญํ ์ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
ํ๋ก์ ํธ ํ์ด์ง: https://github.com/yifanzhang-pro/HLA
์ ๋ฒ์ญ์ ์๋ฌธ์ ์๋ฏธ๋ฅผ ์ถฉ์คํ ์ ๋ฌํจ๊ณผ ๋์์, ์ต์ 2,000์ ์ด์์ ํ๊ธ ํ ์คํธ๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด ์ผ๋ถ ๊ธฐ์ ์ ๋ฐฐ๊ฒฝ๊ณผ ์ค๋ช ์ ์ถ๊ฐยทํ์ฅํ์ฌ ์์ฑ๋์์ต๋๋ค.