PETRA: Pretrained Evolutionary Transformer for SARS-CoV-2 Mutation Prediction
๐ Abstract
**
SARSโCoVโ2๋ ๋ฑ์ฅ ์ดํ ๊ธ๊ฒฉํ๊ณ ์์ธก ๋ถ๊ฐ๋ฅํ ์งํ ๊ฒฝ๋ก๋ฅผ ๋ณด์ด๋ฉฐ ๋ฉด์ญ ํํผ ๋ณ์ด๋ฅผ ์ง์์ ์ผ๋ก ์์ฑํ๊ณ ์๋ค. ์ด๋ ๊ณต์ค๋ณด๊ฑด๊ณผ ๋ฐฑ์ ๊ฐ๋ฐ์ ์ง์์ ์ธ ์ํ์ด ๋๋ค. ๋๊ท๋ชจ ์์ฑํ ์ฌ์ ํ์ต ํธ๋์คํฌ๋จธ(GPT)๋ ์์ฐจ ๋ฐ์ดํฐ ๋ชจ๋ธ๋ง์ ํ์ ์ ๊ฐ์ ธ์์ง๋ง, ์ก์์ด ๋ง์ ๋ฐ์ด๋ฌ์ค ๊ฒ๋ ์์ด์ ์ง์ ์ ์ฉํ๊ธฐ๋ ์ด๋ ต๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ์์ RNA ์์ด์ด ์๋๋ผ ๊ณํต์(phylogenetic tree)์์ ์ถ์ถํ ์งํ ๊ถค์ ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ์๋ก์ด ํธ๋์คํฌ๋จธ ๋ชจ๋ธ PETRA(Pretrained Evolutionary TRAnsformer) ๋ฅผ ์ ์ํ๋ค. ์ด ์ ๊ทผ๋ฒ์ ์์ด ์ก์์ ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ณ ๋ฐ์ด๋ฌ์ค ์งํ์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ๋ค. ๋ํ ์ ์ธ๊ณ ์ํ์ค ๋ฐ์ดํฐ์ ์ง๋ฆฌยท์๊ฐ์ ๋ถ๊ท ํ์ ๋ณด์ ํ๊ธฐ ์ํด ๊ฐ์ค์น ํ์ต ํ๋ ์์ํฌ๋ฅผ ๋์
ํ์๋ค. PETRA๋ ํฅํ SARSโCoVโ2 ๋ณ์ด๋ฅผ ์์ธกํ๋ ๋ฐ ์์ด ๊ฐ์ค์น Recall@1์ด ๋ดํด๋ ์คํฐ๋ ๋ณ์ด 9.45โฏ%, ์คํ์ดํฌ ๋จ๋ฐฑ์ง ์๋ฏธ๋
ธ์ฐ ๋ณ์ด 17.10โฏ%๋ฅผ ๊ธฐ๋กํ์ผ๋ฉฐ, ์ด๋ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ฒ ์ด์ค๋ผ์ธ(0.49โฏ% / 6.64โฏ%)์ ๋นํด ํฌ๊ฒ ํฅ์๋ ์์น์ด๋ค. PETRA๋ 24F(XEC)์ 25A(LP.8.1) ๋ฑ ์ฃผ์ ํด๋ ์ด๋์ ์ค์๊ฐ ๋ณ์ด ์์ธก์์๋ ์ ์ฉํจ์ ์
์ฆํ๋ค. ์ฝ๋์ ๋ชจ๋ธ์ https://github.com/xz-keg/PETra ์์ ์คํ์์ค๋ก ์ ๊ณต๋๋ค.
**
๐ก Deep Analysis
**
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ํ์์ฑ
- ๋ฐ์ด๋ฌ์ค ์งํ์ ๋ณต์ก์ฑ: SARSโCoVโ2๋ ๋์ ๋ณ์ด์จ๊ณผ ์ ์ธ๊ณ์ ์ธ ํ์ฐ์ผ๋ก ์ธํด ๋ค์ํ ๊ณํต(clade)๊ณผ ๋ณ์ด๋ฅผ ๋น ๋ฅด๊ฒ ์์ฑํ๋ค. ๊ธฐ์กด ์์ด ๊ธฐ๋ฐ ์์ธก ๋ชจ๋ธ์ ์ํ์ฑ ์ค๋ฅ, ๋ถ์์ ํ ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ ์ง์ญยท์๊ฐ์ ํธํฅ์ ์ทจ์ฝํ๋ค.
- GPT์ ํธ๋์คํฌ๋จธ์ ํ๊ณ: GPTโ๊ณ์ด ๋ชจ๋ธ์ ํ ์คํธ์ ๊ฐ์ ๊นจ๋ํ ์ํ์ค์ ์ต์ ํ๋ผ ์์ด, ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๋ฐ์ด๋ฌ์ค ๊ฒ๋์ ๊ทธ๋๋ก ์ ์ฉํ๋ฉด ๊ณผ์ ํฉยท๋ ธ์ด์ฆ ์ ํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
2. ํต์ฌ ์์ด๋์ด โ ์งํ ํธ๋ฆฌ ๊ธฐ๋ฐ ์ ๋ ฅ
- ์งํ ๊ถค์ (trajectory) ์ถ์ถ: ์์ RNA ์์ด ๋์ , ๊ณํต์์์ ๊ฐ ๋
ธ๋(๋ฐ์ด๋ฌ์ค ์ํ)์ ๋ถ๋ชจโ์์ ๊ด๊ณ๋ฅผ ์ด์ฉํด โ์งํ ๊ฒฝ๋กโ๋ฅผ ์ํ์ค ํํ๋ก ๋ณํํ๋ค. ์ด๋
- ๋ ธ์ด์ฆ ๊ฐ์ โ ์์ด ์ค๋ฅ๊ฐ ํธ๋ฆฌ ๊ตฌ์กฐ์์ ํ๊ท ํ๋์ด ์ฌ๋ผ์ง
- ๊ณ์ธต์ ์ ๋ณด ๋ณด์กด โ ๋ณ์ด๊ฐ ๋ฐ์ํ ์์ ยท๋ถ๊ธฐ ์ ๋ณด๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ํฌํจ
- ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ ์ ์ฉ: ๊ธฐ์กด GPTโstyle ๋ชจ๋ธ์ ๊ทธ๋๋ก ์ฌ์ฉํ๋, ์ ๋ ฅ ํ ํฐ์ โ์งํ ์ด๋ฒคํธ(์: ํน์ ์ผ๊ธฐ ๋ณ์ด, ์๋ฏธ๋ ธ์ฐ ์นํ)โ๋ก ์ ์ํ๋ค. ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ์ ์๊ฐ(์์ง ๋ ์ง)์ ๊ณํต์ ๊น์ด๋ฅผ ๋์์ ๋ฐ์ํ๋๋ก ์ค๊ณํ์๋ค.
3. ๋ฐ์ดํฐ ๋ถ๊ท ํ ํด๊ฒฐ โ ๊ฐ์ค์น ํ์ต ํ๋ ์์ํฌ
- ์ง๋ฆฌยท์๊ฐ ๊ฐ์ค์น: ํน์ ๊ตญ๊ฐยท์๊ธฐ์ ๊ณผ๋คํ๊ฒ ์์ง๋ ์ํ์ค๊ฐ ๋ชจ๋ธ์ ํธํฅ์ํค๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด, ๊ฐ ์ํ์ ์ญ๋น๋ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ค.
- ๋ค์ค ์์ ์์ค: ๋ดํด๋ ์คํฐ๋ ๋ณ์ด์ ์คํ์ดํฌ ์๋ฏธ๋ ธ์ฐ ๋ณ์ด๋ฅผ ๋์์ ์์ธกํ๋๋ก ๋ ๊ฐ์ ์์ค ํจ์๋ฅผ ๊ฐ์ค ํ๊ท ํ๋ค. ์ด๋ ๋ ๋ณ์ด ์ ํ ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ํ์ตํ๊ฒ ๋ง๋ ๋ค.
4. ์คํ ๊ฒฐ๊ณผ ๋ฐ ์ฑ๊ณผ
| ํ๊ฐ ์งํ | PETRA | ๊ธฐ์กด ์ต๊ณ ๋ฒ ์ด์ค๋ผ์ธ |
|---|---|---|
| Nucleotide Recall@1 (๊ฐ์ค์น) | 9.45โฏ% | 0.49โฏ% |
| Spike AA Recall@1 (๊ฐ์ค์น) | 17.10โฏ% | 6.64โฏ% |
- ์ ๋์ ํฅ์: ํนํ ์คํ์ดํฌ ๋จ๋ฐฑ์ง ๋ณ์ด ์์ธก์์ 2.6๋ฐฐ ์ด์ ๊ฐ์ . ์ด๋ ๋ฐฑ์ ์ค๊ณยทํญ์ฒด ์น๋ฃ์ ๊ฐ๋ฐ์ ์ง์ ์ ์ธ ์์์ ๊ฐ์น๋ฅผ ์ ๊ณตํ๋ค.
- ์ค์๊ฐ ํด๋ ์ด๋ ์์ธก: 24F(XEC)์ 25A(LP.8.1) ํด๋ ์ด๋์ ๋ํด 1~2๊ฐ์ ์์ ๋ณ์ด ์์ธก์ด ๊ฐ๋ฅํ์ผ๋ฉฐ, ์ค์ ๊ด์ธก๋ ๋ณ์ด์ ๋์ ์ผ์น๋๋ฅผ ๋ณด์๋ค.
5. ๊ฐ์
- ๋ ธ์ด์ฆ์ ๊ฐ์ธํจ: ๊ณํต์ ๊ธฐ๋ฐ ์ ๋ ฅ์ผ๋ก ์์ด ์ค๋ฅ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ์ต์ .
- ๊ณ์ธต์ ์งํ ์ ๋ณด ํ์ฉ: ๋ณ์ด ๋ฐ์ ์์ ยท๋ถ๊ธฐ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํจ์ผ๋ก์จ ์ฅ๊ธฐ์ ์ธ ์งํ ํจํด์ ํ์ต.
- ๋ถ๊ท ํ ๋ฐ์ดํฐ ๋ณด์ : ๊ฐ์ค์น ํ์ต์ผ๋ก ์ ์ธ๊ณ ๋ฐ์ดํฐ ํธํฅ์ ์ต์ํ.
- ์คํ์์ค: ์ฝ๋์ ๋ชจ๋ธ์ ๊ณต๊ฐํด ์ฌํ์ฑ ๋ฐ ํ์ฅ์ฑ์ ํ๋ณด.
6. ์ ํ์ ๋ฐ ํฅํ ๊ณผ์
- ๊ณํต์ ํ์ง ์์กด: ํธ๋ฆฌ ๊ตฌ์ถ์ ์ฌ์ฉ๋ ์๊ณ ๋ฆฌ์ฆ(์: ์ต๋์ฐ๋, ๋ฒ ์ด์ฆ)๊ณผ ํ๋ผ๋ฏธํฐ์ ๋ฐ๋ผ ์งํ ๊ถค์ ์ด ๋ฌ๋ผ์ง ์ ์๋ค. ํฅํ ๋ค์ํ ํธ๋ฆฌ ์ถ์ ๋ฐฉ๋ฒ์ ์์๋ธํ๋ ๋ฐฉ์์ด ํ์ํ๋ค.
- ๋ณ์ด ์ ํ ์ ํ: ํ์ฌ๋ ๋ดํด๋ ์คํฐ๋์ ์คํ์ดํฌ ์๋ฏธ๋ ธ์ฐ ๋ณ์ด์ ์ด์ ์ ๋ง์ท์ผ๋ฉฐ, ๋น์ฝ๋ฉ ์์ญยท์กฐ์ ์์ด ๋ณ์ด๋ ๋ค๋ฃจ์ง ์์๋ค. ์ ์ ์ ์ฒด ์์ค์ผ๋ก ํ์ฅํ๋ฉด ๋ ํฌ๊ด์ ์ธ ์์ธก์ด ๊ฐ๋ฅํ ๊ฒ์ด๋ค.
- ์๊ฐ์ ์์ธก ๋ฒ์: ํ์ฌ ๋ชจ๋ธ์ ๋จ๊ธฐ(์์ฃผ~์๊ฐ์) ์์ธก์ ์ต์ ํ๋ผ ์๋ค. ์ฅ๊ธฐ(1๋ ์ด์) ๋ณ์ด ํ๋ฆ์ ํฌ์ฐฉํ๋ ค๋ฉด ์๊ณ์ด ๋ชจ๋ธ๋ง(์: TransformerโXL, Longformer)๊ณผ ๊ฒฐํฉํ๋ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
- ์์ ์ ์ฉ ๊ฒ์ฆ: ์์ธก๋ ๋ณ์ด๊ฐ ์ค์ ๋ฐฑ์ ํจ๋ฅยท์ง๋จ ์ ํ๋์ ๋ฏธ์น๋ ์ํฅ์ ์คํ์คยท์์ ๋ฐ์ดํฐ์ ์ฐ๊ณํด ๊ฒ์ฆํ๋ ๋จ๊ณ๊ฐ ๋จ์ ์๋ค.
7. ์ข ํฉ ํ๊ฐ
PETRA๋ ๋ฐ์ด๋ฌ์ค ์งํ ์์ธก์ด๋ผ๋ ๊ณ ๋์ด๋ ๋ฌธ์ ์ ๋ํด ๊ณํต์ ๊ธฐ๋ฐ ์ ์ฒ๋ฆฌ + ๊ฐ์ค์น ํธ๋์คํฌ๋จธ๋ผ๋ ํ์ ์ ์ธ ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ค. ๊ธฐ์กด ์์ดโ์ง์ ๋ชจ๋ธ ๋๋น 10~20๋ฐฐ ์์ค์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํนํ ์คํ์ดํฌ ๋จ๋ฐฑ์ง ๋ณ์ด ์์ธก์์ ์ค์ฉ์ ์ธ ๊ฐ์น๋ฅผ ์ ๊ณตํ๋ค. ๋ฐ์ดํฐ ๋ถ๊ท ํ์ ์ฒด๊ณ์ ์ผ๋ก ๋ณด์ ํ๊ณ , ์คํ์์ค๋ก ๋ฐฐํฌํจ์ผ๋ก์จ ํ๊ณยท์ฐ์ ๊ณ๊ฐ ๋ฐ๋ก ํ์ฉํ ์ ์๋ ๊ธฐ๋ฐ์ ๋ง๋ จํ๋ค. ๋ค๋ง, ํธ๋ฆฌ ํ์ง ์์กด์ฑ ๋ฐ ์ฅ๊ธฐ ์์ธก ํ๊ณ ๋ฑ ๋ณด์ํ ์ ์ด ์กด์ฌํ๋ฏ๋ก, ํฅํ ๋ฉํฐโํธ๋ฆฌ ์์๋ธ, ์ ์ ์ ์ฒด ํ์ฅ, ์๊ณ์ดโ๊ฐํ ํ์ต ๋ฑ์ ํตํด ๋ชจ๋ธ์ ๋์ฑ ๊ฒฌ๊ณ ํ๊ฒ ๋ง๋ค ํ์๊ฐ ์๋ค.
**
๐ Full Content
๊ทธ ๋ฑ์ฅ ์ดํ๋ก, SARSโCoVโ2๋ ๊ทนํ ๋น ๋ฅด๊ณ ์์ธกํ๊ธฐ ์ด๋ ค์ด ์งํ ๊ฒฝ๋ก๋ฅผ ์ง์์ ์ผ๋ก ๋ณด์ฌ ์์ผ๋ฉฐ, ํนํ **๋ฉด์ญ ํํผ ๋ณ์ด(immuneโevasive variants)**๊ฐ ๋์์์ด ์๋กญ๊ฒ ๋ฑ์ฅํ๊ณ ์๋ค. ์ด๋ฌํ ๋ณ์ด๋ค์ ๊ธฐ์กด์ ๊ฐ๋ฐ๋ ๋ฐฑ์ ์ด๋ ์น๋ฃ์ ์ ํจ๊ณผ๋ฅผ ๊ฐ์์ํค๋ ์์ธ์ผ๋ก ์์ฉํ์ฌ, ์ ์ธ๊ณ์ ์ธ **๊ณต์ค ๋ณด๊ฑด(public health)**๊ณผ **๋ฐฑ์ ๊ฐ๋ฐ(vaccine development)**์ ์ง์์ ์ธ ๋์ ๊ณผ์ ๋ฅผ ์ ์ํ๋ค.
๋๊ท๋ชจ **์์ฑ ์ฌ์ ํ์ต ๋ณํ๊ธฐ(generative preโtrained transformers, GPT)**๋ ์์ฐ์ด ์ฒ๋ฆฌ์ ๊ฐ์ ์์ฐจ ๋ฐ์ดํฐ ๋ชจ๋ธ๋ง ๋ถ์ผ์์ ํ์ ์ ์ธ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์์ง๋ง, **๋ ธ์ด์ฆ๊ฐ ๋ง์ด ํฌํจ๋ ๋ฐ์ด๋ฌ์ค ๊ฒ๋ ์์ด(noisy viral genomic sequences)**์ ์ง์ ์ ์ฉํ๋ ๊ฒฝ์ฐ์๋ ์ฌ๋ฌ ํ๊ณ์ ์ด ์กด์ฌํ๋ค. ๋ฐ์ด๋ฌ์ค ์์ด์ ์คํ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์ํ์ฑ ์ค๋ฅ(sequencing noise), ๋ถ์์ ํ ๋ฐ์ดํฐ(unfinished data), ๊ทธ๋ฆฌ๊ณ ์ํ๋ง ํธํฅ(sample bias) ๋ฑ์ผ๋ก ์ธํด ๋งค์ฐ ์ก์์ด ๋ง์ผ๋ฉฐ, ์ด๋ฌํ ์ก์์ ๋ชจ๋ธ์ด ์ค์ ์งํ ํจํด์ ํ์ตํ๋ ๋ฐ ๋ฐฉํด๊ฐ ๋๋ค.
์ด์ ๋ณธ ๋ ผ๋ฌธ์์๋ **์์ RNA ์์ด ์์ฒด๊ฐ ์๋๋ผ, ๊ณํต์(phylogenetic tree)์์ ์ถ์ถํ ์งํ ๊ถค์ (evolutionary trajectories)**์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์๋ก์ด ๋ณํ๊ธฐ ๋ชจ๋ธ์ธ **PETRA(Pretrained Evolutionary TRAnsformer)**๋ฅผ ์ ์ํ๋ค. PETRA๋ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ์์ด๋์ด์ ๊ธฐ๋ฐํ๋ค.
-
์งํ ๊ถค์ ๊ธฐ๋ฐ ์ ๋ ฅ: ๊ณํต์๋ ๋ฐ์ด๋ฌ์ค๊ฐ ์๊ฐ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ๋ณ์ดํ๊ณ ๋ถ๊ธฐํ๋์ง๋ฅผ **๊ณ์ธต์ (hierarchical)**์ผ๋ก ๋ณด์ฌ ์ฃผ๋ ๊ตฌ์กฐ์ด๋ค. ๋ฐ๋ผ์ ๊ฐ ๋ ธ๋(๋ฐ์ด๋ฌ์ค ์ํ)์ ๊ทธ ๋ถ๋ชจโ์์ ๊ด๊ณ๋ฅผ ์ด์ฉํด ์งํ ๊ฒฝ๋ก๋ฅผ ์ํ์ค ํํ๋ก ๋ณํํจ์ผ๋ก์จ, ์์ ์์ด์ ๋ด์ฌ๋ ์ก์์ ํฌ๊ฒ ๊ฐ์์ํฌ ์ ์๋ค.
-
๋ ธ์ด์ฆ ์ํ ๋ฉ์ปค๋์ฆ: ์งํ ๊ถค์ ์ ์ค์ ๋ณ์ด ์ฌ๊ฑด์ ์๊ฐ ์์๋๋ก ์ ๋ ฌํ ๊ฒ์ด๋ฏ๋ก, ์ํ์ฑ ๊ณผ์ ์์ ๋ฐ์ํ๋ ๋ฌด์์ ์ค๋ฅ๊ฐ ์์ฐ์ค๋ฝ๊ฒ ํ๊ท ํ๋๊ณ , ๋ชจ๋ธ์ ์ค์ ๋ณ์ด ํจํด์ ๋ ์ง์คํ๊ฒ ๋๋ค.
-
๊ณ์ธต์ ๊ตฌ์กฐ ํ์ต: ๋ณํ๊ธฐ(Transformer)์ ์๊ธฐโ์ฃผ์(selfโattention) ๋ฉ์ปค๋์ฆ์ ์ ๋ ฅ ์ํ์ค ๋ด์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ๋ค. ์งํ ๊ถค์ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํจ์ผ๋ก์จ, PETRA๋ ํด๋ ์ด๋(clade) ๊ฐ์ ์ฅ๊ธฐ์ ์ธ ์งํ ๊ด๊ณ์ ํน์ ๋ถ์์ ๋ฐ๋ณต์ ์ธ ๋ณ์ด๋ฅผ ๋์์ ํ์ตํ ์ ์๋ค.
๋ํ, ์ ์ธ๊ณ์ ์ผ๋ก ์์ง๋ SARSโCoVโ2 ์์ด ๋ฐ์ดํฐ๋ ์ง๋ฆฌ์ (geographical) ๋ฐ ์๊ฐ์ (temporal) ๋ถ๊ท ํ์ด ์ฌ๊ฐํ๊ฒ ๋ํ๋๋ค. ์๋ฅผ ๋ค์ด, ํน์ ๊ตญ๊ฐ๋ ํน์ ์๊ธฐ์ ์ง์ค์ ์ผ๋ก ์ํ๋ง๋ ๋ฐ์ดํฐ๊ฐ ๊ณผ๋คํ๊ฒ ์กด์ฌํ๊ณ , ๋ฐ๋ฉด์ ์ ๊ฐ๋ฐ ๊ตญ๊ฐ๋ ์ด๊ธฐ ๋จ๊ณ์ ๋ฐ์ดํฐ๋ ํ์ ํ ๋ถ์กฑํ ์ํฉ์ด๋ค. ์ด๋ฌํ ๋ถ๊ท ํ์ ๋ชจ๋ธ์ด ํธํฅ๋(biased) ์์ธก์ ํ๊ฒ ๋ง๋ค ์ํ์ด ์๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด PETRA๋ **๊ฐ์ค์น ํ์ต ํ๋ ์์ํฌ(weighted training framework)**๋ฅผ ๋์ ํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ์์ด ์ํ์ **์ง๋ฆฌ์ ยท์๊ฐ์ ๊ฐ์ค์น(geographicalโtemporal weight)**๋ฅผ ๋ถ์ฌํ์ฌ, ๋ฐ์ดํฐ๊ฐ ๊ณผ๋คํ๊ฒ ์ง์ค๋ ์ง์ญยท์๊ธฐ์ ์ํฅ๋ ฅ์ ๊ฐ์์ํค๊ณ , ์๋์ ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ง์ญยท์๊ธฐ์ ์ํ์ ๊ฐ์ค์น๋ฅผ ์ฆ๋ํจ์ผ๋ก์จ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๊ท ํ์ ๋ง์ถ์๋ค.
์ด๋ฌํ ์ค๊ณ์ ํ์ต ์ ๋ต์ ๋ฐํ์ผ๋ก PETRA๋ **ํฅํ SARSโCoVโ2 ๋ณ์ด๋ฅผ ์์ธก(predicting future mutations)**ํ๋ ๋ฐ ์์ด ํ์ํ ์ฑ๋ฅ์ ์ ์ฆํ์๋ค. ์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- **๋ดํด๋ ์คํ์ด๋ ๋ณ์ด(nucleotide mutations)**์ ๋ํ **๊ฐ์ค์น recall@1(weighted recall@1)**์ **9.45โฏ%**๋ฅผ ๊ธฐ๋กํ์๋ค. ์ด๋ ๊ธฐ์กด์ ๋ณด๊ณ ๋ **์ต๊ณ ์ฑ๋ฅ ๋ฒ ์ด์ค๋ผ์ธ(baseline)**์ด **0.49โฏ%**์ ๋จธ๋ฌผ๋ ๋ ๊ฒ์ ๋นํด ์ฝ 19๋ฐฐ ๋์ ์์น์ด๋ค.
- **์คํ์ดํฌ ๋จ๋ฐฑ์ง ์๋ฏธ๋ ธ์ฐ ๋ณ์ด(spike aminoโacid mutations)**์ ๋ํด์๋ ๊ฐ์ค์น recall@1์ด **17.10โฏ%**์ ๋ฌํ์ผ๋ฉฐ, ๋ฒ ์ด์ค๋ผ์ธ์ด **6.64โฏ%**์ ๋ถ๊ณผํ๋ ์ ์ ๊ณ ๋ คํ๋ฉด ์ฝ 2.6๋ฐฐ ์ด์์ ํฅ์์ ์๋ฏธํ๋ค.
์ด์ ๊ฐ์ ๊ฒฐ๊ณผ๋ PETRA๊ฐ ๋จ์ํ ๋ณ์ด ๋น๋๋ฅผ ์์ธกํ๋ ์์ค์ ๋์ด, ์ค์ ์์ ๋ฐ ๋ฐฉ์ญ ํ์ฅ์์ ์ค์ํ **์ฃผ์ ํด๋ ์ด๋(major clades)**์ **์ค์๊ฐ ๋ณ์ด ์์ธก(realโtime mutation prediction)**์ ํ์ฉ๋ ์ ์์์ ์์ฌํ๋ค. ํนํ, **24F(XEC)**์ **25A(LP.8.1)**์ ๊ฐ์ ํ์ฌ ์ ์ธ๊ณ์ ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ ์ฃผ์ ํด๋ ์ด๋์ ๋ํด PETRA๋ ์กฐ๊ธฐ ๊ฒฝ๋ณด(early warning) ์ญํ ์ ์ํํ ์ ์๋ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ ์ฃผ์๋ค.
๋ง์ง๋ง์ผ๋ก, ์ฐ๊ตฌ ์ฌํ์ฑ๊ณผ ๊ณต๋ ์ฐ๊ตฌ ์ด์ง์ ์ํด ์ฝ๋์ ํ์ต๋ ๋ชจ๋ธ์ ๋ชจ๋ ์คํ ์์ค๋ก ๊ณต๊ฐํ์๋ค. interested researchers can access the repository at https://github.com/xzโkeg/PETra. ์ด ์ ์ฅ์์๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ, ๋ชจ๋ธ ์ํคํ ์ฒ ์ ์, ํ์ต ์คํฌ๋ฆฝํธ, ๊ทธ๋ฆฌ๊ณ ํ๊ฐ์ฉ ์คํฌ๋ฆฝํธ๊ฐ ๋ชจ๋ ํฌํจ๋์ด ์์ด, ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ๋์ผํ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ๊ฑฐ๋ ํ์ฅํ์ฌ ๋ค๋ฅธ ๋ฐ์ด๋ฌ์ค ์ข ํน์ ๋ค์ํ ์งํ ๋ฌธ์ ์ ์ ์ฉํ ์ ์๋๋ก ์ค๊ณ๋์๋ค.
์์ฝํ๋ฉด, PETRA๋ ๊ณํต์ ๊ธฐ๋ฐ ์งํ ๊ถค์ ์ ํ์ฉํจ์ผ๋ก์จ **์ํ์ฑ ์ก์(noise)**์ ํจ๊ณผ์ ์ผ๋ก ์ต์ ํ๊ณ , ๊ณ์ธต์ ์งํ ๊ตฌ์กฐ๋ฅผ ์ ๋ฐํ๊ฒ ๋ชจ๋ธ๋งํ๋ค. ๊ฐ์ค์น ํ์ต ํ๋ ์์ํฌ๋ฅผ ํตํด ์ง๋ฆฌยท์๊ฐ ๋ถ๊ท ํ์ ๋ณด์ ํจ์ผ๋ก์จ, ๊ธฐ์กด GPTโ๊ณ์ด ๋ชจ๋ธ์ด ์ง๋ฉดํ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , SARSโCoVโ2 ๋ณ์ด ์์ธก ๋ถ์ผ์์ **์๋ก์ด ๊ธฐ์ค(new benchmark)**์ ์ ์ํ๋ค. ์ด๋ฌํ ์ ๊ทผ์ ํฅํ ์ ์ผ๋ณ ๊ฐ์, ๋ฐฑ์ ์ค๊ณ, ๊ทธ๋ฆฌ๊ณ ์ ์ํ ๋์ ์ ๋ต ์๋ฆฝ์ ์ค์ํ ๋๊ตฌ๊ฐ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.