PETRA: Pretrained Evolutionary Transformer for SARS-CoV-2 Mutation Prediction

PETRA: Pretrained Evolutionary Transformer for SARS-CoV-2 Mutation Prediction

๐Ÿ“ Abstract

**
SARSโ€‘CoVโ€‘2๋Š” ๋“ฑ์žฅ ์ดํ›„ ๊ธ‰๊ฒฉํ•˜๊ณ  ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ์ง„ํ™” ๊ฒฝ๋กœ๋ฅผ ๋ณด์ด๋ฉฐ ๋ฉด์—ญ ํšŒํ”ผ ๋ณ€์ด๋ฅผ ์ง€์†์ ์œผ๋กœ ์ƒ์„ฑํ•˜๊ณ  ์žˆ๋‹ค. ์ด๋Š” ๊ณต์ค‘๋ณด๊ฑด๊ณผ ๋ฐฑ์‹  ๊ฐœ๋ฐœ์— ์ง€์†์ ์ธ ์œ„ํ˜‘์ด ๋œ๋‹ค. ๋Œ€๊ทœ๋ชจ ์ƒ์„ฑํ˜• ์‚ฌ์ „ํ•™์Šต ํŠธ๋žœ์Šคํฌ๋จธ(GPT)๋Š” ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง์— ํ˜์‹ ์„ ๊ฐ€์ ธ์™”์ง€๋งŒ, ์žก์Œ์ด ๋งŽ์€ ๋ฐ”์ด๋Ÿฌ์Šค ๊ฒŒ๋†ˆ ์„œ์—ด์— ์ง์ ‘ ์ ์šฉํ•˜๊ธฐ๋Š” ์–ด๋ ต๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์›์‹œ RNA ์„œ์—ด์ด ์•„๋‹ˆ๋ผ ๊ณ„ํ†ต์ˆ˜(phylogenetic tree)์—์„œ ์ถ”์ถœํ•œ ์ง„ํ™” ๊ถค์ ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ PETRA(Pretrained Evolutionary TRAnsformer) ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์€ ์„œ์—ด ์žก์Œ์„ ํšจ๊ณผ์ ์œผ๋กœ ์™„ํ™”ํ•˜๊ณ  ๋ฐ”์ด๋Ÿฌ์Šค ์ง„ํ™”์˜ ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ•œ๋‹ค. ๋˜ํ•œ ์ „ ์„ธ๊ณ„ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์˜ ์ง€๋ฆฌยท์‹œ๊ฐ„์  ๋ถˆ๊ท ํ˜•์„ ๋ณด์ •ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์ค‘์น˜ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•˜์˜€๋‹ค. PETRA๋Š” ํ–ฅํ›„ SARSโ€‘CoVโ€‘2 ๋ณ€์ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์žˆ์–ด ๊ฐ€์ค‘์น˜ Recall@1์ด ๋‰ดํด๋ ˆ์˜คํ‹ฐ๋“œ ๋ณ€์ด 9.45โ€ฏ%, ์ŠคํŒŒ์ดํฌ ๋‹จ๋ฐฑ์งˆ ์•„๋ฏธ๋…ธ์‚ฐ ๋ณ€์ด 17.10โ€ฏ%๋ฅผ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ฒ ์ด์Šค๋ผ์ธ(0.49โ€ฏ% / 6.64โ€ฏ%)์— ๋น„ํ•ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋œ ์ˆ˜์น˜์ด๋‹ค. PETRA๋Š” 24F(XEC)์™€ 25A(LP.8.1) ๋“ฑ ์ฃผ์š” ํด๋ ˆ์ด๋“œ์˜ ์‹ค์‹œ๊ฐ„ ๋ณ€์ด ์˜ˆ์ธก์—์„œ๋„ ์œ ์šฉํ•จ์„ ์ž…์ฆํ•œ๋‹ค. ์ฝ”๋“œ์™€ ๋ชจ๋ธ์€ https://github.com/xz-keg/PETra ์—์„œ ์˜คํ”ˆ์†Œ์Šค๋กœ ์ œ๊ณต๋œ๋‹ค.


**

๐Ÿ’ก Deep Analysis

**

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ํ•„์š”์„ฑ

  • ๋ฐ”์ด๋Ÿฌ์Šค ์ง„ํ™”์˜ ๋ณต์žก์„ฑ: SARSโ€‘CoVโ€‘2๋Š” ๋†’์€ ๋ณ€์ด์œจ๊ณผ ์ „ ์„ธ๊ณ„์ ์ธ ํ™•์‚ฐ์œผ๋กœ ์ธํ•ด ๋‹ค์–‘ํ•œ ๊ณ„ํ†ต(clade)๊ณผ ๋ณ€์ด๋ฅผ ๋น ๋ฅด๊ฒŒ ์ƒ์„ฑํ•œ๋‹ค. ๊ธฐ์กด ์„œ์—ด ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ๋ชจ๋ธ์€ ์‹œํ€€์‹ฑ ์˜ค๋ฅ˜, ๋ถˆ์™„์ „ํ•œ ๋ฐ์ดํ„ฐ, ๊ทธ๋ฆฌ๊ณ  ์ง€์—ญยท์‹œ๊ฐ„์  ํŽธํ–ฅ์— ์ทจ์•ฝํ•˜๋‹ค.
  • GPT์™€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ•œ๊ณ„: GPTโ€‘๊ณ„์—ด ๋ชจ๋ธ์€ ํ…์ŠคํŠธ์™€ ๊ฐ™์€ ๊นจ๋—ํ•œ ์‹œํ€€์Šค์— ์ตœ์ ํ™”๋ผ ์žˆ์–ด, ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ๋ฐ”์ด๋Ÿฌ์Šค ๊ฒŒ๋†ˆ์— ๊ทธ๋Œ€๋กœ ์ ์šฉํ•˜๋ฉด ๊ณผ์ ํ•ฉยท๋…ธ์ด์ฆˆ ์ „ํŒŒ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด โ€“ ์ง„ํ™” ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜ ์ž…๋ ฅ

  • ์ง„ํ™” ๊ถค์ (trajectory) ์ถ”์ถœ: ์›์‹œ RNA ์„œ์—ด ๋Œ€์‹ , ๊ณ„ํ†ต์ˆ˜์—์„œ ๊ฐ ๋…ธ๋“œ(๋ฐ”์ด๋Ÿฌ์Šค ์ƒ˜ํ”Œ)์™€ ๋ถ€๋ชจโ€‘์ž์‹ ๊ด€๊ณ„๋ฅผ ์ด์šฉํ•ด โ€œ์ง„ํ™” ๊ฒฝ๋กœโ€๋ฅผ ์‹œํ€€์Šค ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ์ด๋Š”
    1. ๋…ธ์ด์ฆˆ ๊ฐ์†Œ โ€“ ์„œ์—ด ์˜ค๋ฅ˜๊ฐ€ ํŠธ๋ฆฌ ๊ตฌ์กฐ์—์„œ ํ‰๊ท ํ™”๋˜์–ด ์‚ฌ๋ผ์ง
    2. ๊ณ„์ธต์  ์ •๋ณด ๋ณด์กด โ€“ ๋ณ€์ด๊ฐ€ ๋ฐœ์ƒํ•œ ์‹œ์ ยท๋ถ„๊ธฐ ์ •๋ณด๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํฌํ•จ
  • ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜ ์ ์šฉ: ๊ธฐ์กด GPTโ€‘style ๋ชจ๋ธ์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๋˜, ์ž…๋ ฅ ํ† ํฐ์„ โ€œ์ง„ํ™” ์ด๋ฒคํŠธ(์˜ˆ: ํŠน์ • ์—ผ๊ธฐ ๋ณ€์ด, ์•„๋ฏธ๋…ธ์‚ฐ ์น˜ํ™˜)โ€๋กœ ์ •์˜ํ•œ๋‹ค. ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ์€ ์‹œ๊ฐ„(์ˆ˜์ง‘ ๋‚ ์งœ)์™€ ๊ณ„ํ†ต์  ๊นŠ์ด๋ฅผ ๋™์‹œ์— ๋ฐ˜์˜ํ•˜๋„๋ก ์„ค๊ณ„ํ•˜์˜€๋‹ค.

3. ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜• ํ•ด๊ฒฐ โ€“ ๊ฐ€์ค‘์น˜ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ

  • ์ง€๋ฆฌยท์‹œ๊ฐ„ ๊ฐ€์ค‘์น˜: ํŠน์ • ๊ตญ๊ฐ€ยท์‹œ๊ธฐ์— ๊ณผ๋‹คํ•˜๊ฒŒ ์ˆ˜์ง‘๋œ ์‹œํ€€์Šค๊ฐ€ ๋ชจ๋ธ์„ ํŽธํ–ฅ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด, ๊ฐ ์ƒ˜ํ”Œ์— ์—ญ๋นˆ๋„ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•œ๋‹ค.
  • ๋‹ค์ค‘ ์ž‘์—… ์†์‹ค: ๋‰ดํด๋ ˆ์˜คํ‹ฐ๋“œ ๋ณ€์ด์™€ ์ŠคํŒŒ์ดํฌ ์•„๋ฏธ๋…ธ์‚ฐ ๋ณ€์ด๋ฅผ ๋™์‹œ์— ์˜ˆ์ธกํ•˜๋„๋ก ๋‘ ๊ฐœ์˜ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๊ฐ€์ค‘ ํ‰๊ท ํ•œ๋‹ค. ์ด๋Š” ๋‘ ๋ณ€์ด ์œ ํ˜• ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค.

4. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ์„ฑ๊ณผ

ํ‰๊ฐ€ ์ง€ํ‘œ PETRA ๊ธฐ์กด ์ตœ๊ณ  ๋ฒ ์ด์Šค๋ผ์ธ
Nucleotide Recall@1 (๊ฐ€์ค‘์น˜) 9.45โ€ฏ% 0.49โ€ฏ%
Spike AA Recall@1 (๊ฐ€์ค‘์น˜) 17.10โ€ฏ% 6.64โ€ฏ%
  • ์ •๋Ÿ‰์  ํ–ฅ์ƒ: ํŠนํžˆ ์ŠคํŒŒ์ดํฌ ๋‹จ๋ฐฑ์งˆ ๋ณ€์ด ์˜ˆ์ธก์—์„œ 2.6๋ฐฐ ์ด์ƒ ๊ฐœ์„ . ์ด๋Š” ๋ฐฑ์‹  ์„ค๊ณ„ยทํ•ญ์ฒด ์น˜๋ฃŒ์ œ ๊ฐœ๋ฐœ์— ์ง์ ‘์ ์ธ ์ž„์ƒ์  ๊ฐ€์น˜๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
  • ์‹ค์‹œ๊ฐ„ ํด๋ ˆ์ด๋“œ ์˜ˆ์ธก: 24F(XEC)์™€ 25A(LP.8.1) ํด๋ ˆ์ด๋“œ์— ๋Œ€ํ•ด 1~2๊ฐœ์›” ์•ž์„  ๋ณ€์ด ์˜ˆ์ธก์ด ๊ฐ€๋Šฅํ–ˆ์œผ๋ฉฐ, ์‹ค์ œ ๊ด€์ธก๋œ ๋ณ€์ด์™€ ๋†’์€ ์ผ์น˜๋„๋ฅผ ๋ณด์˜€๋‹ค.

5. ๊ฐ•์ 

  1. ๋…ธ์ด์ฆˆ์— ๊ฐ•์ธํ•จ: ๊ณ„ํ†ต์ˆ˜ ๊ธฐ๋ฐ˜ ์ž…๋ ฅ์œผ๋กœ ์„œ์—ด ์˜ค๋ฅ˜๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์–ต์ œ.
  2. ๊ณ„์ธต์  ์ง„ํ™” ์ •๋ณด ํ™œ์šฉ: ๋ณ€์ด ๋ฐœ์ƒ ์‹œ์ ยท๋ถ„๊ธฐ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•จ์œผ๋กœ์จ ์žฅ๊ธฐ์ ์ธ ์ง„ํ™” ํŒจํ„ด์„ ํ•™์Šต.
  3. ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ ๋ณด์ •: ๊ฐ€์ค‘์น˜ ํ•™์Šต์œผ๋กœ ์ „ ์„ธ๊ณ„ ๋ฐ์ดํ„ฐ ํŽธํ–ฅ์„ ์ตœ์†Œํ™”.
  4. ์˜คํ”ˆ์†Œ์Šค: ์ฝ”๋“œ์™€ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•ด ์žฌํ˜„์„ฑ ๋ฐ ํ™•์žฅ์„ฑ์„ ํ™•๋ณด.

6. ์ œํ•œ์  ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ

  • ๊ณ„ํ†ต์ˆ˜ ํ’ˆ์งˆ ์˜์กด: ํŠธ๋ฆฌ ๊ตฌ์ถ•์— ์‚ฌ์šฉ๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜(์˜ˆ: ์ตœ๋Œ€์šฐ๋„, ๋ฒ ์ด์ฆˆ)๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋”ฐ๋ผ ์ง„ํ™” ๊ถค์ ์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค. ํ–ฅํ›„ ๋‹ค์–‘ํ•œ ํŠธ๋ฆฌ ์ถ”์ • ๋ฐฉ๋ฒ•์„ ์•™์ƒ๋ธ”ํ•˜๋Š” ๋ฐฉ์•ˆ์ด ํ•„์š”ํ•˜๋‹ค.
  • ๋ณ€์ด ์œ ํ˜• ์ œํ•œ: ํ˜„์žฌ๋Š” ๋‰ดํด๋ ˆ์˜คํ‹ฐ๋“œ์™€ ์ŠคํŒŒ์ดํฌ ์•„๋ฏธ๋…ธ์‚ฐ ๋ณ€์ด์— ์ดˆ์ ์„ ๋งž์ท„์œผ๋ฉฐ, ๋น„์ฝ”๋”ฉ ์˜์—ญยท์กฐ์ ˆ ์„œ์—ด ๋ณ€์ด๋Š” ๋‹ค๋ฃจ์ง€ ์•Š์•˜๋‹ค. ์ „ ์œ ์ „์ฒด ์ˆ˜์ค€์œผ๋กœ ํ™•์žฅํ•˜๋ฉด ๋” ํฌ๊ด„์ ์ธ ์˜ˆ์ธก์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์ด๋‹ค.
  • ์‹œ๊ฐ„์  ์˜ˆ์ธก ๋ฒ”์œ„: ํ˜„์žฌ ๋ชจ๋ธ์€ ๋‹จ๊ธฐ(์ˆ˜์ฃผ~์ˆ˜๊ฐœ์›”) ์˜ˆ์ธก์— ์ตœ์ ํ™”๋ผ ์žˆ๋‹ค. ์žฅ๊ธฐ(1๋…„ ์ด์ƒ) ๋ณ€์ด ํ๋ฆ„์„ ํฌ์ฐฉํ•˜๋ ค๋ฉด ์‹œ๊ณ„์—ด ๋ชจ๋ธ๋ง(์˜ˆ: Transformerโ€‘XL, Longformer)๊ณผ ๊ฒฐํ•ฉํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
  • ์ž„์ƒ ์ ์šฉ ๊ฒ€์ฆ: ์˜ˆ์ธก๋œ ๋ณ€์ด๊ฐ€ ์‹ค์ œ ๋ฐฑ์‹  ํšจ๋Šฅยท์ง„๋‹จ ์ •ํ™•๋„์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์‹คํ—˜์‹คยท์ž„์ƒ ๋ฐ์ดํ„ฐ์™€ ์—ฐ๊ณ„ํ•ด ๊ฒ€์ฆํ•˜๋Š” ๋‹จ๊ณ„๊ฐ€ ๋‚จ์•„ ์žˆ๋‹ค.

7. ์ข…ํ•ฉ ํ‰๊ฐ€

PETRA๋Š” ๋ฐ”์ด๋Ÿฌ์Šค ์ง„ํ™” ์˜ˆ์ธก์ด๋ผ๋Š” ๊ณ ๋‚œ์ด๋„ ๋ฌธ์ œ์— ๋Œ€ํ•ด ๊ณ„ํ†ต์ˆ˜ ๊ธฐ๋ฐ˜ ์ „์ฒ˜๋ฆฌ + ๊ฐ€์ค‘์น˜ ํŠธ๋žœ์Šคํฌ๋จธ๋ผ๋Š” ํ˜์‹ ์ ์ธ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด ์„œ์—ดโ€‘์ง์ ‘ ๋ชจ๋ธ ๋Œ€๋น„ 10~20๋ฐฐ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํŠนํžˆ ์ŠคํŒŒ์ดํฌ ๋‹จ๋ฐฑ์งˆ ๋ณ€์ด ์˜ˆ์ธก์—์„œ ์‹ค์šฉ์ ์ธ ๊ฐ€์น˜๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ณด์ •ํ•˜๊ณ , ์˜คํ”ˆ์†Œ์Šค๋กœ ๋ฐฐํฌํ•จ์œผ๋กœ์จ ํ•™๊ณ„ยท์‚ฐ์—…๊ณ„๊ฐ€ ๋ฐ”๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ–ˆ๋‹ค. ๋‹ค๋งŒ, ํŠธ๋ฆฌ ํ’ˆ์งˆ ์˜์กด์„ฑ ๋ฐ ์žฅ๊ธฐ ์˜ˆ์ธก ํ•œ๊ณ„ ๋“ฑ ๋ณด์™„ํ•  ์ ์ด ์กด์žฌํ•˜๋ฏ€๋กœ, ํ–ฅํ›„ ๋ฉ€ํ‹ฐโ€‘ํŠธ๋ฆฌ ์•™์ƒ๋ธ”, ์ „ ์œ ์ „์ฒด ํ™•์žฅ, ์‹œ๊ณ„์—ดโ€‘๊ฐ•ํ™” ํ•™์Šต ๋“ฑ์„ ํ†ตํ•ด ๋ชจ๋ธ์„ ๋”์šฑ ๊ฒฌ๊ณ ํ•˜๊ฒŒ ๋งŒ๋“ค ํ•„์š”๊ฐ€ ์žˆ๋‹ค.


**

๐Ÿ“„ Full Content

๊ทธ ๋“ฑ์žฅ ์ดํ›„๋กœ, SARSโ€‘CoVโ€‘2๋Š” ๊ทนํžˆ ๋น ๋ฅด๊ณ  ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ค์šด ์ง„ํ™” ๊ฒฝ๋กœ๋ฅผ ์ง€์†์ ์œผ๋กœ ๋ณด์—ฌ ์™”์œผ๋ฉฐ, ํŠนํžˆ **๋ฉด์—ญ ํšŒํ”ผ ๋ณ€์ด(immuneโ€‘evasive variants)**๊ฐ€ ๋Š์ž„์—†์ด ์ƒˆ๋กญ๊ฒŒ ๋“ฑ์žฅํ•˜๊ณ  ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณ€์ด๋“ค์€ ๊ธฐ์กด์— ๊ฐœ๋ฐœ๋œ ๋ฐฑ์‹ ์ด๋‚˜ ์น˜๋ฃŒ์ œ์˜ ํšจ๊ณผ๋ฅผ ๊ฐ์†Œ์‹œํ‚ค๋Š” ์š”์ธ์œผ๋กœ ์ž‘์šฉํ•˜์—ฌ, ์ „ ์„ธ๊ณ„์ ์ธ **๊ณต์ค‘ ๋ณด๊ฑด(public health)**๊ณผ **๋ฐฑ์‹  ๊ฐœ๋ฐœ(vaccine development)**์— ์ง€์†์ ์ธ ๋„์ „ ๊ณผ์ œ๋ฅผ ์ œ์‹œํ•œ๋‹ค.

๋Œ€๊ทœ๋ชจ **์ƒ์„ฑ ์‚ฌ์ „ ํ•™์Šต ๋ณ€ํ™˜๊ธฐ(generative preโ€‘trained transformers, GPT)**๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์™€ ๊ฐ™์€ ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง ๋ถ„์•ผ์—์„œ ํ˜์‹ ์ ์ธ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ์ง€๋งŒ, **๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์ด ํฌํ•จ๋œ ๋ฐ”์ด๋Ÿฌ์Šค ๊ฒŒ๋†ˆ ์„œ์—ด(noisy viral genomic sequences)**์— ์ง์ ‘ ์ ์šฉํ•˜๋Š” ๊ฒฝ์šฐ์—๋Š” ์—ฌ๋Ÿฌ ํ•œ๊ณ„์ ์ด ์กด์žฌํ•œ๋‹ค. ๋ฐ”์ด๋Ÿฌ์Šค ์„œ์—ด์€ ์‹คํ—˜ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์‹œํ€€์‹ฑ ์˜ค๋ฅ˜(sequencing noise), ๋ถˆ์™„์ „ํ•œ ๋ฐ์ดํ„ฐ(unfinished data), ๊ทธ๋ฆฌ๊ณ  ์ƒ˜ํ”Œ๋ง ํŽธํ–ฅ(sample bias) ๋“ฑ์œผ๋กœ ์ธํ•ด ๋งค์šฐ ์žก์Œ์ด ๋งŽ์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ์žก์Œ์€ ๋ชจ๋ธ์ด ์‹ค์ œ ์ง„ํ™” ํŒจํ„ด์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ๋ฐฉํ•ด๊ฐ€ ๋œ๋‹ค.

์ด์— ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” **์›์‹œ RNA ์„œ์—ด ์ž์ฒด๊ฐ€ ์•„๋‹ˆ๋ผ, ๊ณ„ํ†ต์ˆ˜(phylogenetic tree)์—์„œ ์ถ”์ถœํ•œ ์ง„ํ™” ๊ถค์ (evolutionary trajectories)**์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ณ€ํ™˜๊ธฐ ๋ชจ๋ธ์ธ **PETRA(Pretrained Evolutionary TRAnsformer)**๋ฅผ ์ œ์•ˆํ•œ๋‹ค. PETRA๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ์•„์ด๋””์–ด์— ๊ธฐ๋ฐ˜ํ•œ๋‹ค.

  1. ์ง„ํ™” ๊ถค์  ๊ธฐ๋ฐ˜ ์ž…๋ ฅ: ๊ณ„ํ†ต์ˆ˜๋Š” ๋ฐ”์ด๋Ÿฌ์Šค๊ฐ€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ๋ณ€์ดํ•˜๊ณ  ๋ถ„๊ธฐํ–ˆ๋Š”์ง€๋ฅผ **๊ณ„์ธต์ (hierarchical)**์œผ๋กœ ๋ณด์—ฌ ์ฃผ๋Š” ๊ตฌ์กฐ์ด๋‹ค. ๋”ฐ๋ผ์„œ ๊ฐ ๋…ธ๋“œ(๋ฐ”์ด๋Ÿฌ์Šค ์ƒ˜ํ”Œ)์™€ ๊ทธ ๋ถ€๋ชจโ€‘์ž์‹ ๊ด€๊ณ„๋ฅผ ์ด์šฉํ•ด ์ง„ํ™” ๊ฒฝ๋กœ๋ฅผ ์‹œํ€€์Šค ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•จ์œผ๋กœ์จ, ์›์‹œ ์„œ์—ด์— ๋‚ด์žฌ๋œ ์žก์Œ์„ ํฌ๊ฒŒ ๊ฐ์†Œ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

  2. ๋…ธ์ด์ฆˆ ์™„ํ™” ๋ฉ”์ปค๋‹ˆ์ฆ˜: ์ง„ํ™” ๊ถค์ ์€ ์‹ค์ œ ๋ณ€์ด ์‚ฌ๊ฑด์„ ์‹œ๊ฐ„ ์ˆœ์„œ๋Œ€๋กœ ์ •๋ ฌํ•œ ๊ฒƒ์ด๋ฏ€๋กœ, ์‹œํ€€์‹ฑ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ฌด์ž‘์œ„ ์˜ค๋ฅ˜๊ฐ€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ‰๊ท ํ™”๋˜๊ณ , ๋ชจ๋ธ์€ ์‹ค์ œ ๋ณ€์ด ํŒจํ„ด์— ๋” ์ง‘์ค‘ํ•˜๊ฒŒ ๋œ๋‹ค.

  3. ๊ณ„์ธต์  ๊ตฌ์กฐ ํ•™์Šต: ๋ณ€ํ™˜๊ธฐ(Transformer)์˜ ์ž๊ธฐโ€‘์ฃผ์˜(selfโ€‘attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ž…๋ ฅ ์‹œํ€€์Šค ๋‚ด์˜ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•œ๋‹ค. ์ง„ํ™” ๊ถค์ ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ, PETRA๋Š” ํด๋ ˆ์ด๋“œ(clade) ๊ฐ„์˜ ์žฅ๊ธฐ์ ์ธ ์ง„ํ™” ๊ด€๊ณ„์™€ ํŠน์ • ๋ถ€์œ„์˜ ๋ฐ˜๋ณต์ ์ธ ๋ณ€์ด๋ฅผ ๋™์‹œ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.

๋˜ํ•œ, ์ „ ์„ธ๊ณ„์ ์œผ๋กœ ์ˆ˜์ง‘๋œ SARSโ€‘CoVโ€‘2 ์„œ์—ด ๋ฐ์ดํ„ฐ๋Š” ์ง€๋ฆฌ์ (geographical) ๋ฐ ์‹œ๊ฐ„์ (temporal) ๋ถˆ๊ท ํ˜•์ด ์‹ฌ๊ฐํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํŠน์ • ๊ตญ๊ฐ€๋‚˜ ํŠน์ • ์‹œ๊ธฐ์— ์ง‘์ค‘์ ์œผ๋กœ ์ƒ˜ํ”Œ๋ง๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณผ๋‹คํ•˜๊ฒŒ ์กด์žฌํ•˜๊ณ , ๋ฐ˜๋ฉด์— ์ €๊ฐœ๋ฐœ ๊ตญ๊ฐ€๋‚˜ ์ดˆ๊ธฐ ๋‹จ๊ณ„์˜ ๋ฐ์ดํ„ฐ๋Š” ํ˜„์ €ํžˆ ๋ถ€์กฑํ•œ ์ƒํ™ฉ์ด๋‹ค. ์ด๋Ÿฌํ•œ ๋ถˆ๊ท ํ˜•์€ ๋ชจ๋ธ์ด ํŽธํ–ฅ๋œ(biased) ์˜ˆ์ธก์„ ํ•˜๊ฒŒ ๋งŒ๋“ค ์œ„ํ—˜์ด ์žˆ๋‹ค.

์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด PETRA๋Š” **๊ฐ€์ค‘์น˜ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ(weighted training framework)**๋ฅผ ๋„์ž…ํ•˜์˜€๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๊ฐ ์„œ์—ด ์ƒ˜ํ”Œ์— **์ง€๋ฆฌ์ ยท์‹œ๊ฐ„์  ๊ฐ€์ค‘์น˜(geographicalโ€‘temporal weight)**๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ, ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณผ๋‹คํ•˜๊ฒŒ ์ง‘์ค‘๋œ ์ง€์—ญยท์‹œ๊ธฐ์˜ ์˜ํ–ฅ๋ ฅ์„ ๊ฐ์†Œ์‹œํ‚ค๊ณ , ์ƒ๋Œ€์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ์ง€์—ญยท์‹œ๊ธฐ์˜ ์ƒ˜ํ”Œ์— ๊ฐ€์ค‘์น˜๋ฅผ ์ฆ๋Œ€ํ•จ์œผ๋กœ์จ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์˜ ๊ท ํ˜•์„ ๋งž์ถ”์—ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์„ค๊ณ„์™€ ํ•™์Šต ์ „๋žต์„ ๋ฐ”ํƒ•์œผ๋กœ PETRA๋Š” **ํ–ฅํ›„ SARSโ€‘CoVโ€‘2 ๋ณ€์ด๋ฅผ ์˜ˆ์ธก(predicting future mutations)**ํ•˜๋Š” ๋ฐ ์žˆ์–ด ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ•˜์˜€๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • **๋‰ดํด๋ ˆ์˜คํƒ€์ด๋“œ ๋ณ€์ด(nucleotide mutations)**์— ๋Œ€ํ•œ **๊ฐ€์ค‘์น˜ recall@1(weighted recall@1)**์€ **9.45โ€ฏ%**๋ฅผ ๊ธฐ๋กํ•˜์˜€๋‹ค. ์ด๋Š” ๊ธฐ์กด์— ๋ณด๊ณ ๋œ **์ตœ๊ณ  ์„ฑ๋Šฅ ๋ฒ ์ด์Šค๋ผ์ธ(baseline)**์ด **0.49โ€ฏ%**์— ๋จธ๋ฌผ๋ €๋˜ ๊ฒƒ์— ๋น„ํ•ด ์•ฝ 19๋ฐฐ ๋†’์€ ์ˆ˜์น˜์ด๋‹ค.
  • **์ŠคํŒŒ์ดํฌ ๋‹จ๋ฐฑ์งˆ ์•„๋ฏธ๋…ธ์‚ฐ ๋ณ€์ด(spike aminoโ€‘acid mutations)**์— ๋Œ€ํ•ด์„œ๋Š” ๊ฐ€์ค‘์น˜ recall@1์ด **17.10โ€ฏ%**์— ๋‹ฌํ–ˆ์œผ๋ฉฐ, ๋ฒ ์ด์Šค๋ผ์ธ์ด **6.64โ€ฏ%**์— ๋ถˆ๊ณผํ–ˆ๋˜ ์ ์„ ๊ณ ๋ คํ•˜๋ฉด ์•ฝ 2.6๋ฐฐ ์ด์ƒ์˜ ํ–ฅ์ƒ์„ ์˜๋ฏธํ•œ๋‹ค.

์ด์™€ ๊ฐ™์€ ๊ฒฐ๊ณผ๋Š” PETRA๊ฐ€ ๋‹จ์ˆœํžˆ ๋ณ€์ด ๋นˆ๋„๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ˆ˜์ค€์„ ๋„˜์–ด, ์‹ค์ œ ์ž„์ƒ ๋ฐ ๋ฐฉ์—ญ ํ˜„์žฅ์—์„œ ์ค‘์š”ํ•œ **์ฃผ์š” ํด๋ ˆ์ด๋“œ(major clades)**์˜ **์‹ค์‹œ๊ฐ„ ๋ณ€์ด ์˜ˆ์ธก(realโ€‘time mutation prediction)**์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค. ํŠนํžˆ, **24F(XEC)**์™€ **25A(LP.8.1)**์™€ ๊ฐ™์€ ํ˜„์žฌ ์ „ ์„ธ๊ณ„์ ์œผ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋Š” ์ฃผ์š” ํด๋ ˆ์ด๋“œ์— ๋Œ€ํ•ด PETRA๋Š” ์กฐ๊ธฐ ๊ฒฝ๋ณด(early warning) ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ ์ฃผ์—ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ์—ฐ๊ตฌ ์žฌํ˜„์„ฑ๊ณผ ๊ณต๋™ ์—ฐ๊ตฌ ์ด‰์ง„์„ ์œ„ํ•ด ์ฝ”๋“œ์™€ ํ•™์Šต๋œ ๋ชจ๋ธ์€ ๋ชจ๋‘ ์˜คํ”ˆ ์†Œ์Šค๋กœ ๊ณต๊ฐœํ•˜์˜€๋‹ค. interested researchers can access the repository at https://github.com/xzโ€‘keg/PETra. ์ด ์ €์žฅ์†Œ์—๋Š” ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ํŒŒ์ดํ”„๋ผ์ธ, ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์ •์˜, ํ•™์Šต ์Šคํฌ๋ฆฝํŠธ, ๊ทธ๋ฆฌ๊ณ  ํ‰๊ฐ€์šฉ ์Šคํฌ๋ฆฝํŠธ๊ฐ€ ๋ชจ๋‘ ํฌํ•จ๋˜์–ด ์žˆ์–ด, ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด ๋™์ผํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•˜๊ฑฐ๋‚˜ ํ™•์žฅํ•˜์—ฌ ๋‹ค๋ฅธ ๋ฐ”์ด๋Ÿฌ์Šค ์ข… ํ˜น์€ ๋‹ค์–‘ํ•œ ์ง„ํ™” ๋ฌธ์ œ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, PETRA๋Š” ๊ณ„ํ†ต์ˆ˜ ๊ธฐ๋ฐ˜ ์ง„ํ™” ๊ถค์ ์„ ํ™œ์šฉํ•จ์œผ๋กœ์จ **์‹œํ€€์‹ฑ ์žก์Œ(noise)**์„ ํšจ๊ณผ์ ์œผ๋กœ ์–ต์ œํ•˜๊ณ , ๊ณ„์ธต์  ์ง„ํ™” ๊ตฌ์กฐ๋ฅผ ์ •๋ฐ€ํ•˜๊ฒŒ ๋ชจ๋ธ๋งํ•œ๋‹ค. ๊ฐ€์ค‘์น˜ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์ง€๋ฆฌยท์‹œ๊ฐ„ ๋ถˆ๊ท ํ˜•์„ ๋ณด์ •ํ•จ์œผ๋กœ์จ, ๊ธฐ์กด GPTโ€‘๊ณ„์—ด ๋ชจ๋ธ์ด ์ง๋ฉดํ–ˆ๋˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , SARSโ€‘CoVโ€‘2 ๋ณ€์ด ์˜ˆ์ธก ๋ถ„์•ผ์—์„œ **์ƒˆ๋กœ์šด ๊ธฐ์ค€(new benchmark)**์„ ์ œ์‹œํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ํ–ฅํ›„ ์ „์—ผ๋ณ‘ ๊ฐ์‹œ, ๋ฐฑ์‹  ์„ค๊ณ„, ๊ทธ๋ฆฌ๊ณ  ์‹ ์†ํ•œ ๋Œ€์‘ ์ „๋žต ์ˆ˜๋ฆฝ์— ์ค‘์š”ํ•œ ๋„๊ตฌ๊ฐ€ ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

View Original PDF on ArXiv