Deep one-gate per layer networks with skip connections are universal classifiers

Deep one-gate per layer networks with skip connections are universal classifiers

๐Ÿ“ Abstract

**
๋ณธ ๋…ผ๋ฌธ์€ ๋‘ ํด๋ž˜์Šค๋ฅผ ๊ตฌ๋ถ„ํ•˜๋„๋ก ์„ค๊ณ„๋œ 2โ€‘hiddenโ€‘layer ๋‹ค์ธต ํผ์…‰ํŠธ๋ก (MLP)์„, **ํ•œ ์ธต๋‹น ํ•˜๋‚˜์˜ ๊ฒŒ์ดํŠธ(ํผ์…‰ํŠธ๋ก )์™€ ์Šคํ‚ต ์—ฐ๊ฒฐ(skip connections)**๋งŒ์„ ๊ฐ–๋Š” ๊นŠ์€ ์‹ ๊ฒฝ๋ง์œผ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์ธ๋‹ค.
ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š”

  1. **์„ ํ˜• ์ ˆ๋‹จ(linear cuts)**์„ ์ด์šฉํ•ด ์ž…๋ ฅ ๊ณต๊ฐ„์„ ๋ฐ˜ํ‰๋ฉด์œผ๋กœ ๋‚˜๋ˆ„๊ณ ,
  2. ๊ฐ ์ ˆ๋‹จ์˜ ์–‘(positive) ๋ฐ˜ํ‰๋ฉด์„ ๋…ผ๋ฆฌ์  AND(๊ต์ง‘ํ•ฉ) ๋กœ ๊ฒฐํ•ฉํ•ด ํ•˜๋‚˜์˜ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์ •์˜ํ•˜๊ณ ,
  3. ์—ฌ๋Ÿฌ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ OR(ํ•ฉ์ง‘ํ•ฉ) ๋กœ ๊ฒฐํ•ฉํ•ด ์ตœ์ข… ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” DNF(Disjunctive Normal Form) ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ ๋‹ค.

์ด DNF ํ˜•ํƒœ์˜ 3โ€‘layer ๋„คํŠธ์›Œํฌ(์ ˆ๋‹จ โ†’ ๊ต์ง‘ํ•ฉ โ†’ ํ•ฉ์ง‘ํ•ฉ)๋ฅผ,
๊ฐ ์ธต์ด ์› ์ž…๋ ฅ ๋ฒกํ„ฐ์™€ ์ด์ „ ์ธต์˜ ๋‹จ์ผ ๋น„ํŠธ(โ€œํ˜„์žฌ๊นŒ์ง€ ํด๋Ÿฌ์Šคํ„ฐ์— ์†ํ–ˆ๋Š”๊ฐ€?โ€)๋งŒ์„ ์ „๋‹ฌํ•˜๋Š”
ํ•œ ๊ฒŒ์ดํŠธโ€‘ํผ ์ธต + ์Šคํ‚ต ์—ฐ๊ฒฐ ๊ตฌ์กฐ๋กœ ๋ณ€ํ™˜ํ•จ์œผ๋กœ์จ, ๋™์ผํ•œ ๋ถ„๋ฅ˜ ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ตฌ์กฐ๊ฐ€ ๋‹จ์ˆœํ•ด์ง์„ ์ฆ๋ช…ํ•œ๋‹ค.


**

๐Ÿ’ก Deep Analysis

**

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ

  • ๊ธฐ์กด ์—ฐ๊ตฌ(

๐Ÿ“„ Full Content

**[1]์— ์ œ์‹œ๋œ ๋ฐ”์™€ ๊ฐ™์ด, ๋ ˆ์ด์–ด๋‹น ํ•˜๋‚˜์˜ ๊ฒŒ์ดํŠธ๋งŒ์„ ๊ฐ–๋Š” ๊นŠ์€ ์‹ ๊ฒฝ๋ง์€ nโ€‘์ฐจ์› ๊ณต๊ฐ„์—์„œ ๋‘ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ์ ๋“ค์„ ์™„๋ฒฝํžˆ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์šธ ์ˆ˜ ์žˆ๋Š” ๋Œ€์•ˆ์ ์ธ ์ฆ๋ช…์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด ์ฆ๋ช…์€ ๋‘ ํด๋ž˜์Šค๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ณ ์ „์ ์ธ ์‹ ๊ฒฝ๋ง์„ ์Šคํ‚ต ์—ฐ๊ฒฐ(skip connections)์„ ๊ฐ€์ง„ ๋ ˆ์ด์–ด๋‹น ํ•˜๋‚˜์˜ ๊ฒŒ์ดํŠธ๋งŒ ์žˆ๋Š” ๊นŠ์€ ์‹ ๊ฒฝ๋ง์œผ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.


ํผ์…‰ํŠธ๋ก ๊ณผ ๋ฐ˜๊ณต๊ฐ„

ํผ์…‰ํŠธ๋ก ์€ ๋ฒกํ„ฐ ์ž…๋ ฅ์„ ๋ฐ›์•„ ์ž…๋ ฅ ๊ณต๊ฐ„์„ ์–‘์˜ ๋ฐ˜๊ณต๊ฐ„๊ณผ ์Œ์˜ ๋ฐ˜๊ณต๊ฐ„ ๋‘ ๊ฐœ์˜ ์„œ๋ธŒ์ŠคํŽ˜์ด์Šค๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค(๊ทธ๋ฆผโ€ฏ1a). ํผ์…‰ํŠธ๋ก ์˜ ๋ฐ”์ด์–ด์Šค ์ž…๋ ฅ์€ ์ž…๋ ฅ ๋ฒกํ„ฐ์— ์˜ํ•ด ์ œ๊ณต๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด ๊ฒฝ์šฐ ์ž…๋ ฅ ์ฐจ์›์€ ํ•˜๋‚˜ ๋Š˜์–ด๋‚˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ํผ์…‰ํŠธ๋ก ์— ์—ฐ๊ฒฐ๋œ ๋ฐ”์ด์–ด์Šค๋Š” ๊ฐ€์ค‘์น˜ nโ€ฏ+โ€ฏ1์„ ๊ฐ–์Šต๋‹ˆ๋‹ค.

๊ฐ€์ค‘์น˜ ๋ฒกํ„ฐ wโ€ฏ=โ€ฏ(wโ‚,โ€ฏwโ‚‚,โ€ฏโ€ฆ,โ€ฏwโ‚™โ‚Šโ‚)์™€ ์ž…๋ ฅ ๋ฒกํ„ฐ x์— ๋Œ€ํ•ด ์ˆ˜ํ–‰๋˜๋Š” ์—ฐ์‚ฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

[ \text{output}= \begin{cases} 1 & \text{if } ; w \cdot x \ge 0 \[4pt] 0 & \text{otherwise} \end{cases} ]

์ฆ‰, ์ž…๋ ฅ ๋ฒกํ„ฐ์™€ ๊ฐ€์ค‘์น˜ ๋ฒกํ„ฐ์˜ ๋‚ด์ ์„ 0์ด๋ผ๋Š” ์ž„๊ณ„๊ฐ’๊ณผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. ๋„ค ๊ฐœ์˜ ํผ์…‰ํŠธ๋ก ์ด ๋งŒ๋“  ์–‘์˜ ๋ฐ˜๊ณต๊ฐ„๋“ค์˜ ํ•ฉ์ง‘ํ•ฉ์€ ํšŒ์ƒ‰ ์˜์—ญ์„ ํ•œ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํšŒ์ƒ‰ ์ ๊ณผ ๋…ธ๋ž€ ์ ์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ํ•˜๋‚˜์˜ ํด๋ž˜์Šค(์˜ˆ: ํšŒ์ƒ‰)๋ฅผ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


ํผ์…‰ํŠธ๋ก ์ด ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋…ผ๋ฆฌ ์—ฐ์‚ฐ

ํผ์…‰ํŠธ๋ก ์€ ๊ฐ€์ค‘์น˜์™€ ๋ฐ”์ด์–ด์Šค๋ฅผ ์ ์ ˆํžˆ ์„ ํƒํ•จ์œผ๋กœ์จ ์ดํ•ญ ๋…ผ๋ฆฌ ์—ฐ์‚ฐ(ํ•ฉ(disjunction), ๊ต(conjunction), ๋ถ€์ •(negation) ๋“ฑ)์„ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Œ์ด ์ž˜ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค[2].


๋‹ค๊ฐํ˜•(Convex Polytope)์œผ๋กœ ํด๋ž˜์Šค ๋‘˜๋Ÿฌ์‹ธ๊ธฐ

๋ถ„๋ฅ˜ ๋ฌธ์ œ๊ฐ€ ๋‘ ํด๋ž˜์Šค๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๊ณ , ํ•˜๋‚˜์˜ ํด๋ž˜์Šค๋ฅผ ๋ณผ๋ก ๋‹ค๊ฐํ˜•(convex polytope) ๋กœ ๋‘˜๋Ÿฌ์‹ธ์„œ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ๊ทธ๋ฆผโ€ฏ1b์™€ ๊ฐ™์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ ˆ๋‹จ(cut)์œผ๋กœ ํšŒ์ƒ‰ ํด๋ž˜์Šค๋ฅผ ์™„์ „ํžˆ ๋‘˜๋Ÿฌ์‹ธ๋Š” ํ•œ ๊ฐ€์ง€ ์ ‘๊ทผ๋ฒ•์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์–‘์˜ ๋ฐ˜๊ณต๊ฐ„๋“ค์˜ ๊ต์ง‘ํ•ฉ(๋…ผ๋ฆฌ์  AND)์ด ๋‘ ํด๋ž˜์Šค๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒฝ๊ณ„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

ํšŒ์ƒ‰ ์ ๋“ค์ด ์—ฌ๋Ÿฌ โ€œ์„ฌ(island)โ€ ํ˜น์€ ํด๋Ÿฌ์Šคํ„ฐ(cluster)๋กœ ํฉ์–ด์ ธ ์žˆ๋‹ค๋ฉด, ๊ฐ๊ฐ์„ ์„œ๋กœ ๋‹ค๋ฅธ ๋ณผ๋ก ๋‹ค๊ฐํ˜•์œผ๋กœ ๋‘˜๋Ÿฌ์‹ธ์„œ ๋ฐฐ๊ฒฝ๊ณผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(๊ทธ๋ฆผโ€ฏ2). ๊ทธ๋ฆผ์—์„œ๋Š” 9๊ฐœ์˜ ์ ˆ๋‹จ๊ณผ 3๊ฐœ์˜ ์–‘์˜ ๋ฐ˜๊ณต๊ฐ„ ๊ต์ง‘ํ•ฉ์ด ํ•„์š”ํ•œ ๋ถ„๋ฅ˜๋ฅผ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.


๋‹ค์ธต ํผ์…‰ํŠธ๋ก  ๊ตฌ์กฐ

๊ทธ๋ฆผโ€ฏ3์— ๋‚˜ํƒ€๋‚œ ๋‹ค์ธต ํผ์…‰ํŠธ๋ก ์€ ์œ„์™€ ๊ฐ™์€ ์ž…๋ ฅ ๊ณต๊ฐ„ ๊ตฌ๋ถ„์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋ ˆ์ด์–ด๋Š” ๋ถ„๋ฅ˜์— ํ•„์š”ํ•œ ๋ชจ๋“  ์ ˆ๋‹จ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ƒ‰์น ๋œ ์‚ผ๊ฐํ˜•์€ ๊ฐ€์ค‘์น˜ ์—ฐ๊ฒฐ์„ ์˜๋ฏธํ•˜๋ฉฐ, ํ•„์š” ์—†๋Š” ์—ฐ๊ฒฐ์€ ๊ฐ€์ค‘์น˜๋ฅผ 0์œผ๋กœ ๋‘์–ด ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฒซ ๋ฒˆ์งธ ๋ ˆ์ด์–ด์˜ ์ด์ง„ ์ถœ๋ ฅ์€ ๊ฐ ์ ˆ๋‹จ์˜ ์–ด๋А ์ชฝ์— ์ž…๋ ฅ ๋ฒกํ„ฐ๊ฐ€ ์œ„์น˜ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ด์ง„ ์ถœ๋ ฅ๋“ค์„ ์›ํ•˜๋Š” ๋…ผ๋ฆฌ ์—ฐ์‚ฐ์œผ๋กœ ๊ฒฐํ•ฉํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๋ถ„๋ฅ˜ ์ž‘์—…์—์„œ๋Š” ๊ฐ ์„ฌ(ํด๋Ÿฌ์Šคํ„ฐ)๋งˆ๋‹ค ์—ฌ๋Ÿฌ ์ ˆ๋‹จ์˜ ๊ต์ง‘ํ•ฉ์„ ๊ตฌํ•˜๋ฉด ๋˜๋ฏ€๋กœ, ๋‘ ๋ฒˆ์งธ ๋ ˆ์ด์–ด๊ฐ€ ์ด๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

  • ๋‘ ๋ฒˆ์งธ ๋ ˆ์ด์–ด์˜ ์ฒซ ๋ฒˆ์งธ ์œ ๋‹›์€ ํด๋Ÿฌ์Šคํ„ฐโ€ฏ1์„ ๋‘˜๋Ÿฌ์‹ธ๋Š” ์ ˆ๋‹จ๋“ค์˜ ์–‘์˜ ๋ฐ˜๊ณต๊ฐ„ ๊ต์ง‘ํ•ฉ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
  • ๋‘ ๋ฒˆ์งธ ์œ ๋‹›์€ ํด๋Ÿฌ์Šคํ„ฐโ€ฏ2๋ฅผ ๋‘˜๋Ÿฌ์‹ธ๋Š” ์ ˆ๋‹จ๋“ค์˜ ๊ต์ง‘ํ•ฉ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

๋‘ ๋ฒˆ์งธ ๋ ˆ์ด์–ด์˜ ๋ชจ๋“  ์ด์ง„ ์ถœ๋ ฅ์ด ๊ตฌํ•ด์ง€๋ฉด, ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ ์œ ๋‹›์€ OR ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์–ด๋А ํ•˜๋‚˜๋ผ๋„ 1์ด๋ฉด ์ตœ์ข… ์ถœ๋ ฅ์ด 1์ด ๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.


๋ช‡ ๊ฐ€์ง€ ์ฃผ์˜์ 

  1. ์ ˆ๋‹จ ์žฌ์‚ฌ์šฉ ๊ธˆ์ง€ โ€“ ์„œ๋กœ ๋‹ค๋ฅธ ํด๋Ÿฌ์Šคํ„ฐ์— ๊ฐ™์€ ์ ˆ๋‹จ์„ ์žฌ์‚ฌ์šฉํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋™์ผํ•œ ์ ˆ๋‹จ์ด ๋‘ ๋ฒˆ ํ•„์š”ํ•˜๋ฉด ์ฒซ ๋ฒˆ์งธ ๋ ˆ์ด์–ด์— ๋‘ ๊ฐœ์˜ ๋ณ„๋„ ๊ฒŒ์ดํŠธ๋ฅผ ๋‘ก๋‹ˆ๋‹ค.
  2. ๋ถ€ํ˜ธ ๋ฐ˜์ „ โ€“ ์ ˆ๋‹จ์ด ํšŒ์ƒ‰ ์ ๋“ค์„ ์–‘์˜ ๋ฐ˜๊ณต๊ฐ„์— ๋‘์ง€ ๋ชปํ•œ๋‹ค๋ฉด, ํ•ด๋‹น ์ ˆ๋‹จ์˜ ๊ฐ€์ค‘์น˜ ๋ถ€ํ˜ธ๋ฅผ ๋’ค์ง‘์–ด ์–‘์˜ ๋ฐ˜๊ณต๊ฐ„์ด ๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  3. ์–‘๊ทน์„ฑ ๋ฒกํ„ฐ ์‚ฌ์šฉ ๊ฐ€๋Šฅ์„ฑ โ€“ +1 / โ€“1 ๋กœ ์ด๋ฃจ์–ด์ง„ ์–‘๊ทน์„ฑ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ถ€์ • ์—ฐ์‚ฐ์„ ๊ฐ€์ค‘์น˜ ๋ถ€ํ˜ธ๋งŒ ๋ฐ”๊พธ๋ฉด ๋˜๋ฏ€๋กœ ์œ„์™€ ๊ฐ™์€ ๋ณต์žก์„ฑ์„ ํ”ผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ์ ˆ๋‹จ ์žฌ์‚ฌ์šฉ์„ ํ”ผํ•จ์œผ๋กœ์จ ๋ณต์žก์„ฑ์„ ์ตœ์†Œํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ์† ์˜์—ญ vs. ์ด์‚ฐ ์  ์ง‘ํ•ฉ

์œ„ ๋„ํ‘œ๋“ค์€ ์—ฐ์†์ ์ธ ๊ณต๊ฐ„ ์˜์—ญ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ์‹ค์ œ ๋‘ ํด๋ž˜์Šค๋Š” ์ด์‚ฐ์ ์ธ ์ ๋“ค์˜ ์ง‘ํ•ฉ์ด๋ฉฐ, ์ด ์ ๋“ค์„ ๋ณผ๋ก ๋‹ค๊ฐํ˜•์œผ๋กœ ๋‘˜๋Ÿฌ์‹ธ์„œ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ๊ธฐ์–ตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ทนํ•œ ์ƒํ™ฉ์—์„œ๋Š” ํ•œ ํด๋ž˜์Šค์˜ ๊ฐ ์ ๋งˆ๋‹ค ๋ณ„๋„์˜ ๋‹ค๊ฐํ˜•์„ ๋งŒ๋“ค ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ์ด๋Š” ๋„คํŠธ์›Œํฌ๊ฐ€ ๋งค์šฐ ๋น„์‹ธ๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ์ด๋ฉฐ ์—ฌ๊ธฐ์„œ๋Š” ์กด์žฌ ์ฆ๋ช…์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.


๋…ผ๋ฆฌ์‹ ํ˜•ํƒœ: โ€œํ•ฉ์˜ ๊ตโ€ (Disjunction of Conjunctions)

์œ„ ๋„คํŠธ์›Œํฌ๋Š” ํ•ฉ(OR) of ๊ต(AND) ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋จผ์ € ์ ˆ๋‹จ๋“ค์˜ ํ•ฉ(OR) ์„ ์ˆœ์ฐจ์ ์ธ ๊ฒŒ์ดํŠธ๋กœ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ทธ๋ฆผโ€ฏ4์— ๋‚˜ํƒ€๋‚œ ์„ฌ์„ ๋‘˜๋Ÿฌ์‹ธ๊ณ  ์‹ถ๋‹ค๋ฉด ์ ˆ๋‹จโ€ฏ1~4๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ์ ˆ๋‹จ๋“ค์˜ ์–‘์˜ ์˜์—ญ์˜ ํ•ฉ์ง‘ํ•ฉ์ด ๋…ธ๋ž€ ์˜์—ญ์„ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.

์ ์ด ์–ด๋–ค ์ ˆ๋‹จ์˜ ์–‘์˜ ๋ฐ˜๊ณต๊ฐ„์— ์žˆ์œผ๋ฉด ๊ทธ ์ ˆ๋‹จ์„ ํ†ต๊ณผํ–ˆ๋‹ค๊ณ  ๋ณด๊ณ , ์ฆ‰์‹œ ๋…ธ๋ž€ ํด๋ž˜์Šค์— ์†ํ•œ๋‹ค๊ณ  ํŒ๋‹จํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ ˆ๋‹จ๋“ค์„ ์ˆœ์ฐจ์ ์œผ๋กœ ํผ์…‰ํŠธ๋ก ์œผ๋กœ ๊ฒ€์‚ฌํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ํ•˜๋‚˜๋ผ๋„ 1์„ ์ถœ๋ ฅํ•˜๋ฉด ์ „์ฒด ์—ฐ์‚ฐ์€ ์ฐธ(True) ์œผ๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค. ์ด ์ „๋žต์€ ๊ทธ๋ฆผโ€ฏ5์—์„œ ๋ณด์—ฌ์ง€๋Š” ํผ์…‰ํŠธ๋ก  ์ฒด์ธ์œผ๋กœ ์‹œ๊ฐํ™”๋ฉ๋‹ˆ๋‹ค.

๊ทธ๋ฆผโ€ฏ5 ์ƒ๋‹จ ๋‹ค์ด์–ด๊ทธ๋žจ์€ ์ ˆ๋‹จ๋“ค์˜ ํ•ฉ(OR) ์„, ํ•˜๋‹จ ๋‹ค์ด์–ด๊ทธ๋žจ์€ ๋ถ€์ •๋œ ์ ˆ๋‹จ๋“ค์˜ ๊ต(AND) ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

ํผ์…‰ํŠธ๋ก  ์ฒด์ธ์˜ ๋™์ž‘ ์›๋ฆฌ

  • ๊ฐ ๊ฒŒ์ดํŠธ(ํผ์…‰ํŠธ๋ก )๋Š” ์›๋ณธ ์ž…๋ ฅ ๋ฒกํ„ฐ x์™€ ์ด์ „ ๊ฒŒ์ดํŠธ์˜ ์ถœ๋ ฅ์„ ๋™์‹œ์— ๋ฐ›์Šต๋‹ˆ๋‹ค.
  • S๋Š” ๋งค์šฐ ํฐ ์–‘์ˆ˜์ด๋ฉฐ, ์ž…๋ ฅ ๋ฒกํ„ฐ์˜ ์ตœ๋Œ€ ๊ธธ์ด L๋ณด๋‹ค ํฌ๊ฒŒ ์žก์Šต๋‹ˆ๋‹ค.
  • x์˜ ๊ธธ์ด๋ฅผ L ์ดํ•˜๋กœ ์ œํ•œํ•˜๊ณ , ๊ฐ ํผ์…‰ํŠธ๋ก ์˜ ๊ฐ€์ค‘์น˜ ๋ฒกํ„ฐ๋ฅผ ์ •๊ทœํ™”(|w|โ€ฏ=โ€ฏ1)ํ•˜๋ฉด, xยทw์˜ ์ ˆ๋Œ€๊ฐ’์€ ์ตœ๋Œ€ L์ด ๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ Sโ€ฏโ‰ซโ€ฏL ๋กœ ์žก์œผ๋ฉด
    [ x\cdot w + a\cdot S \ge 0 \quad\text{(if } a=1\text{)} ]
    ๊ฐ€ ํ•ญ์ƒ ์„ฑ๋ฆฝํ•˜๊ณ , aโ€ฏ=โ€ฏ0 ์ผ ๋•Œ๋Š” ์ผ๋ฐ˜์ ์ธ ํ…Œ์ŠคํŠธ๊ฐ€ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค.
  • ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ฒด์ธ ์ค‘ ์–ด๋А ํ•˜๋‚˜๊ฐ€ 1์„ ์ถœ๋ ฅํ•˜๋ฉด ์ดํ›„ ๋ชจ๋“  ๊ฒŒ์ดํŠธ๊ฐ€ ๋ฌด์กฐ๊ฑด 1์„ ์ถœ๋ ฅํ•˜๊ฒŒ ๋˜๋ฉฐ, ์ตœ์ข… ์ถœ๋ ฅ๋„ 1์ด ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ ๊ฒŒ์ดํŠธ์—์„œ์˜ ๋…ผ๋ฆฌ์  OR ์—ฐ์‚ฐ์„ ๊ตฌํ˜„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ถ€์ • ์—ฐ์‚ฐ ๋ฐ ๋ชจ๋“ˆํ™”

์ฒด์ธ์˜ ์ถœ๋ ฅ์„ ๋ถ€์ •ํ•˜๋ ค๋ฉด ๊ทธ๋ฆผโ€ฏ5 ํ•˜๋‹จ์— ์žˆ๋Š” ์ธ๋ฒ„ํ„ฐ(inverter) ๋กœ ๊ตฌํ˜„๋œ ๋‹จ์ผ ํผ์…‰ํŠธ๋ก ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋“œ๋ชจ๋ฅด๊ฐ„ ๋ฒ•์น™(Deโ€ฏMorganโ€™s law) ์— ๋”ฐ๋ผ, ์ด์ œ ์ฒด์ธ์€ ์ ˆ๋‹จ๋“ค์˜ ํ•ฉ์˜ ๋ถ€์ •์„ ๊ณ„์‚ฐํ•˜๊ณ , ์ด๋Š” ๋ถ€์ •๋œ ์ ˆ๋‹จ๋“ค์˜ ๊ต์™€ ๋™์ผํ•ฉ๋‹ˆ๋‹ค.

์ด ์ธ๋ฒ„ํ„ฐ ๋ชจ๋“ˆ์€ โ€œ์ ์ด ๋ณผ๋ก ์˜์—ญ ์•ˆ์— ์žˆ์œผ๋ฉด 1, ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด 0โ€์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค(๊ทธ๋ฆผโ€ฏ4์˜ ํšŒ์ƒ‰ ์˜์—ญ์„ ์ฐธ๊ณ ). ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๊ทธ๋ฆผโ€ฏ3์˜ ํด๋Ÿฌ์Šคํ„ฐโ€ฏ1์„ ์ฒ˜๋ฆฌํ•˜๋˜ ๋„คํŠธ์›Œํฌ์˜ ๊ฒŒ์ดํŠธ ์ง‘ํ•ฉ์„ ํ•˜๋‚˜์˜ ๋ชจ๋“ˆ๋กœ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํด๋Ÿฌ์Šคํ„ฐโ€ฏ2,โ€ฏ3 โ€ฆ ์— ๋Œ€ํ•ด์„œ๋„ ๋™์ผํ•˜๊ฒŒ ๋ชจ๋“ˆ์„ ๋งŒ๋“ค๊ณ , ์ด ๋ชจ๋“ˆ๋“ค์„ ์—ฐ์†์ ์œผ๋กœ ๋ฐฐ์น˜ํ•˜๋ฉด(๊ทธ๋ฆผโ€ฏ6) ์ „์ฒด ๋„คํŠธ์›Œํฌ๋Š” ํ•ฉ(OR) of ๊ต(AND) ํ˜•ํƒœ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.


3โ€‘๊ณ„์ธต ์‹ ๊ฒฝ๋ง์— ๋Œ€ํ•œ ์ง๊ด€์  ์„ค๋ช…

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ 3โ€‘๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์ง๊ด€์ ์œผ๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

  1. ์ ˆ๋‹จ ๋ ˆ์ด์–ด โ€“ ์ž…๋ ฅ ๊ณต๊ฐ„์„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์„ ํ˜• ์ ˆ๋‹จ์œผ๋กœ ๋‚˜๋ˆ”.
  2. ์ ˆ๋‹จ ๊ต์ง‘ํ•ฉ ๋ ˆ์ด์–ด โ€“ ๊ฐ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๋‘˜๋Ÿฌ์‹ธ๋Š” ์ ˆ๋‹จ๋“ค์˜ AND ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰.
  3. ํด๋Ÿฌ์Šคํ„ฐ ํ•ฉ ๋ ˆ์ด์–ด โ€“ ์—ฌ๋Ÿฌ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ OR ๋กœ ๊ฒฐํ•ฉ.

์ ˆ๋‹จ ๋ ˆ์ด์–ด ๋’ค์— ์˜ค๋Š” ๋ชจ๋“  ๋ถˆ๋ฆฌ์–ธ ํ•จ์ˆ˜๋Š” ์œ„์™€ ๊ฐ™์€ ํ•ฉ์˜ ๊ต ์ •์ƒํ˜•(disjunctive normal form, DNF)์œผ๋กœ ๋ณ€ํ™˜๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์›๋ž˜ ๋„คํŠธ์›Œํฌ๊ฐ€ ๋ช‡ ๊ฐœ์˜ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋“ , ์œ„์™€ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ์ถ•์†Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


์ฃผ์š” ๊ธฐ์—ฌ

๋ณธ ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” ๋ ˆใ‚คใƒค๋‹น ํ•˜๋‚˜์˜ ๊ฒŒ์ดํŠธ์™€ ์Šคํ‚ต ์—ฐ๊ฒฐ๋งŒ์„ ๊ฐ–๋Š” ๊นŠ์€ ์‹ ๊ฒฝ๋ง์ด ๊ธฐ์กด์˜ ํ•ฉ์˜ ๊ต ํ˜•ํƒœ ๋„คํŠธ์›Œํฌ์™€ ๋™๋“ฑํ•จ์„ ๋ณด์˜€๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ ˆ์ด์–ด๋Š”

  • ์ดˆ๊ธฐ ์ž…๋ ฅ ๋ฒกํ„ฐ(์ž…๋ ฅ ์ฐจ์›)์™€
  • โ€œ์ด ์ ์ด ํด๋ž˜์Šคโ€ฏ1์˜ ํด๋Ÿฌ์Šคํ„ฐ์— ์†ํ•œ๋‹คโ€๋Š” ๋‹จ์ผ ๋น„ํŠธ

๋ฅผ ๋‹ค์Œ ๋ ˆ์ด์–ด์— ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค.

์ด์™€ ๊ฐ™์€ ๋ณ€ํ™˜์„ ์ฆ๋ช…ํ•˜๋Š” ๊ณผ์ •์€ [1]์— ์ œ์‹œ๋œ ์ฆ๋ช…๋ณด๋‹ค ๋‹จ์ˆœํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ๊ฐ์  ๋„ํ‘œ๋ฅผ ํ†ตํ•ด ์‹ ๊ฒฝ๋ง์˜ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋ ค๋Š” ๋‹ค๋ฅธ ์‹œ๋„[3]๋ฅผ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.


๊ฒฐ๋ก 

์ œ์‹œ๋œ ๊ฒฐ๊ณผ๋Š” ์ด๋ก ์ ์ธ ๊ด€์‹ฌ์„ ์ฃผ๋กœ ๊ฐ–์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์‘์šฉ๋ณด๋‹ค๋Š”, ๋ ˆ์ด์–ด๋‹น ํ•˜๋‚˜์˜ ๊ฒŒ์ดํŠธ์™€ ์Šคํ‚ต ์—ฐ๊ฒฐ๋งŒ์œผ๋กœ๋„ ๋ณต์žกํ•œ ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋ฅผ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์คŒ์œผ๋กœ์จ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์— ๋Œ€ํ•œ ๊ธฐํ•˜ํ•™์  ์ง๊ด€์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


์ฐธ๊ณ ๋ฌธํ—Œ

[1] R.โ€ฏRojas, โ€œDeepest Neural Networksโ€, arXiv:1707.0261, 2017.

[2] R.โ€ฏRojas, Neural Networks, Springerโ€‘Verlag, Berlin, 1996.

[3] J.โ€ฏCh.โ€ฏYe, Geometry of Deep Learning, Springerโ€‘Verlag, Singapore, 2022.

View Original PDF on ArXiv