“PREFER: 정밀 발효를 위한 통합 온톨로지, 데이터·AI 시대의 새로운 표준”
📝 Abstract
Precision fermentation relies on microbial cell factories to produce sustainable food, pharmaceuticals, chemicals, and biofuels. Specialized laboratories such as biofoundries are advancing these processes using high-throughput bioreactor platforms, which generate vast datasets. However, the lack of community standards limits data accessibility and interoperability, preventing integration across platforms. In order to address this, we introduce PREFER, an open-source ontology designed to establish a unified standard for bioprocess data. Built in alignment with the widely adopted Basic Formal Ontology (BFO) and connecting with several other community ontologies, PREFER ensures consistency and cross-domain compatibility and covers the whole precision fermentation process. Integrating PREFER into high-throughput bioprocess development workflows enables structured metadata that supports automated cross-platform execution and high-fidelity data capture. Furthermore, PREFER’s standardization has the potential to bridge disparate data silos, generating machine-actionable datasets critical for training predictive, robust machine learning models in synthetic biology. This work provides the foundation for scalable, interoperable bioprocess systems and supports the transition toward more data-driven bioproduction.
💡 Analysis
**
1. 연구 배경 및 필요성
- 정밀 발효의 급성장: 식품, 바이오연료, 농업 등 다양한 분야에서 미생물 기반 생산이 확대되고 있으나, 실험실‑스케일에서 산업‑스케일로 전이하는 과정에서 데이터·메타데이터의 비표준화가 큰 병목으로 작용한다.
- FAIR 원칙의 부재: 현재 바이오파운드리에서 생성되는 고차원 데이터는 사일로화돼 있어 Findability·Accessibility·Interoperability·Reusability가 저해된다. 이는 AI·ML 기반 최적화에 직접적인 제약을 만든다.
2. 온톨로지 설계 및 구현
| 요소 | 설명 | 의의 |
|---|---|---|
| BFO 기반 | 기본 형식 온톨로지(Basic Formal Ontology)와 호환 | 논리적 일관성 확보, 다른 생물·의학 온톨로지와 손쉬운 연계 |
| OBO 파운데이션 | OBO Foundry 원칙 준수 | 커뮤니티 검증·재사용성 강화 |
| 핵심 상위 개념 5개 | Process Control Variable, Precision Fermentation Process, Process Measured Variable, Process Calculated Variable, Material Entity | 정밀 발효 전 과정을 구조화, 데이터 흐름을 명확히 모델링 |
| 지원 상위 개념 3개 | Role, Quality, Unit | 물질·특성·단위 표준화, 다중 계층(폴리히에라키) 지원 |
| Polyhierarchy 설계 | 동일 개념이 “Cultivation Condition”·“Operational Parameter” 등 다중 상위 클래스를 가질 수 있음 | 변수(예: pH)의 제어·측정 구분을 자연스럽게 표현, 복합 질의·추론에 유리 |
| 정보 콘텐츠 엔터티(IAO) | Process Variable을 IAO 기반 정보 엔터티로 모델링 | 제어 변수의 추상적·알고리즘적 특성을 물리적 구현과 분리, 모델 단순화 |
3. 강점
- 통합적 범위 – 초기 스트레인·배지부터 최종 제품·바이오부산물까지 전 단계 데이터를 포괄.
- FAIR 친화적 – 명확한 용어 정의와 계층 구조로 메타데이터 검색·재사용이 용이.
- AI‑Ready – 온톨로지 기반 데이터는 자동 추론·ML 파이프라인에 직접 연결 가능.
- 확장성 – BFO·OBO 호환성 덕분에 Gene Ontology, PATO, 심지어 재무 온톨로지(FIBO)와도 연계 가능, TEA(Techno‑Economic Assessment)와 같은 경제 평가와도 통합 가능.
- 커뮤니티 중심 – 오픈소스·공동 개발 모델을 채택해 지속적인 개선과 사용자 기여를 독려.
4. 한계 및 개선점
| 구분 | 내용 | 제언 |
|---|---|---|
| 채택 장벽 | 새로운 온톨로지를 도입하려면 기존 LIMS/MES 시스템과의 연동 개발이 필요. | 표준 API·플러그인 제공, 주요 바이오파운드리와 파일럿 프로젝트 진행. |
| 툴링 부족 | 현재 온톨로지 편집·검증·시각화 도구가 제한적. | Protégé 플러그인, 웹 기반 시맨틱 에디터, 자동 매핑 스크립트 제공. |
| 데이터 품질 관리 | 온톨로지 적용만으로는 데이터 정확성·정합성을 보장할 수 없음. | 데이터 검증 파이프라인(예: SHACL 규칙)과 연계. |
| 학습 곡선 | BFO·OBO 개념에 익숙하지 않은 연구자·엔지니어에게 진입 장벽. | 교육 자료·워크숍, 사용 사례 중심 튜토리얼 제공. |
| 버전 관리 | 온톨로지 진화 시 하위 호환성 유지가 필요. | 시맨틱 버전링(SemVer) 적용, 변이 로그 제공. |
5. 향후 연구·응용 방향
- 자동 매핑 파이프라인 – 기존 CSV/JSON 데이터셋을 PREFER 용어에 자동 매핑하는 ETL 툴 개발.
- AI 모델 파이프라인 연계 – 온톨로지 기반 메타데이터를 입력으로 하는 전처리·피처 엔지니어링 프레임워크 구축.
- 멀티‑오믹스 통합 – 유전체·전사체·대사체 데이터와 PREFER를 연결해 시스템 수준 모델링 확대.
- 경제·환경 평가 연계 – TEA·LCA와 같은 평가 모델에 PREFER 메타데이터를 직접 주입해 실시간 비용·탄소 발자국 추정.
- 글로벌 표준화 노력 – Global Biofoundry Alliance, NIST Biofoundry 등과 협업해 국제 표준 제안서 제출.
6. 사회·산업적 파급효과
- 데이터 사일로 해소 → 기업·학계 간 협업 가속화, 신제품 개발 주기 단축.
- AI 활용 촉진 → 고성능 예측 모델·자동 최적화가 가능해 생산성·수율 향상.
- 지속가능성 강화 → 정밀 발효 공정의 환경·경제적 효율성을 정량화해 친환경 바이오경제 전환에 기여.
**
📄 Content
정밀 발효는 신흥 바이오 기반 경제의 핵심 기술로, 발효 공정을 위해 설계된 미생물을 이용해 화학물질 및 재료를 지속 가능하게 생산할 수 있게 합니다¹. 정밀 발효의 적용 분야는 현재 에너지(예: LanzaTech와 같은 기업의 바이오연료)², 식품(예: Impossible Foods와 같은 기업의 식물성 고기 대체품)³, 농업(예: Pivot Bio와 같은 기업의 바이오비료)⁴ 등으로 확대되고 있습니다. 이러한 발전에도 불구하고, 실험실 수준에서 산업 규모로 공정을 확대하는 데는 여전히 큰 어려움이 존재합니다⁵. 이는 발효 전·중·후에 수집되는 생물공정 데이터와 메타데이터에 대한 접근성이 부족하기 때문이며, 이러한 데이터는 규모, 균주 및 조건에 따라 달라지는 파라미터를 식별하는 데 필수적입니다. 생물공정 개발 및 확장성 격차를 메우는 일은 바이오제조의 시간과 비용을 절감하는 데 핵심적입니다².
바이오파운드리는 학계와 산업계 사이의 인터페이스에 위치하여 생물공정 규모 확대 문제를 해결하는 데 중요한 역할을 합니다⁶. 이러한 연구기관에서는 고처리량(bio‑reactor) 시스템·플랫폼을 도입해 병렬 실험을 수행함으로써 빠른 테스트와 대량 데이터 생성을 가능하게 합니다. 이와 같은 스크리닝 접근법을 통해 연구자는 합성 엔지니어링된 바이오촉매를 소규모에서 평가하고, 목표 제품에 대해 높은 성능을 보이는 셀 팩토리를 선별합니다. 최우수 균주만이 대규모 테스트 단계로 진입하게 되며, 이 단계적 스크리닝 전략은 대형 바이오리액터 부피를 탐색하는 데 필요한 실험 부담과 자원 요구량을 크게 감소시킵니다. 바이오파운드리 인프라 내에서 생성되는 고차원 데이터는 개별 실험을 넘어서는 고가치 자산이지만, 현재 대부분이 고립된 데이터셋에 머물러 있습니다. 이러한 가치를 온전히 활용하려면 서로 다른 실험 흐름을 통합된 분석 프레임워크로 조화시켜야 합니다. 그러나 다양한 바이오리액터 플랫폼, 운영 모드, 측정 기법 및 계산 유형을 아우르는 데이터 통합은 여전히 큰 도전 과제입니다⁶,⁷. 서로 다른 플랫폼이 제공하는 독점 소프트웨어와 이질적인 데이터 출력은 표준화 작업을 더욱 복잡하게 만듭니다. 기관 간·내 표준화된 데이터 관행이 부재한 탓에, 생물공정 데이터 분석·시각화 도구, 멀티오믹스 데이터 활용, 그리고 인공지능(AI)을 통한 정밀 발효 공정 최적화가 제한되고 있습니다⁸. 따라서 바이오 기반 생산을 진전시키려면 데이터 관리 개선, 특히 데이터 상호운용성이 무엇보다 중요합니다.
이러한 필요성에 부응해 FAIR 원칙(Findability, Accessibility, Interoperability, Reusability)⁹이 데이터 중심 바이오제조의 필수 지침으로 자리 잡았습니다². Global Biofoundry Alliance(GBA)¹⁰, EDD(https://edddocs.jbei.org/ )와 같은 온라인 도구, 미국 국립표준기술연구소(NIST Biofoundry)(https://www.nist.gov ) 및 Industrial Biotechnology Innovation and Synthetic Biology Accelerator(IBISBA) 등은 데이터 표준화, 개방형 프로토콜, 협업 관행을 적극 촉진하고 있습니다. 그럼에도 불구하고, 정밀 발효의 계산·데이터 관리 문제를 해결하는 오픈소스 프레임워크와 커뮤니티 주도 플랫폼은 아직 드뭅니다. 접근 가능한 도구가 부족하면 학계·산업계 전반에 FAIR 원칙을 적용하기 어려워집니다.
온톨로지와 그에 연계된 데이터 관리 시스템은 FAIR 원칙을 구현하는 강력한 수단입니다¹¹. 온톨로지는 의미론적 프레임워크를 구축해 복잡한 질의를 지원함으로써 찾기 쉬운(F) 환경을 제공하고, 통제된 어휘를 통해 데이터 상호운용성(I)을 강화하며, 명확한 데이터 이해를 촉진해 재사용성(R)을 높입니다¹². 또한 온톨로지에 정렬된 데이터는 자동 추론 및 머신러닝 파이프라인에 직접 활용될 수 있어 AI 적용을 용이하게 합니다¹³.
현재 발효 분야에 존재하는 몇몇 레거시 온톨로지는 전통 발효¹⁴와 발효 식품 응용¹⁵에 국한된 범위를 가지고 있어, 정밀 발효 공정이 갖는 기술적 특수성과 복잡성을 충분히 포착하지 못합니다. 이러한 격차를 메우고 커뮤니티에 표준화 역량을 제공하고자 우리는 PREcision FERmentation(PREFER) 온톨로지를 소개합니다. PREFER는 고처리량 생물공정 데이터를 통합하도록 설계된 포괄적인 의미론적 프레임워크로, 정밀 발효 공정의 운영, 환경, 공정 파라미터를 다양한 규모에 걸쳐 아우르며, 바이오 지속가능 생산 공정의 개발 및 확장을 가속화합니다.
지속가능성은 산업 바이오테크놀로지의 핵심 목표이며, 실현 가능한 바이오경제를 구축하려면 환경적 지속가능성과 경제적 타당성을 동시에 맞춰야 합니다. 이러한 효율성 목표는 인공지능(AI) 통합을 통해 점점 더 달성되고 있습니다. 균주 개발을 위한 예측 도구가 발전했음에도 불구하고[16][17][18], 엔지니어링된 균주를 효율적인 생산 유기체와 대규모 공장으로 확장하는 일은 여전히 큰 도전 과제입니다. 이는 대량으로 생성되는 데이터에서 제조 개선을 위한 실행 가능한 정보를 추출하는 능력이 제한적이기 때문입니다[19,20].
이 도전의 핵심은 데이터입니다. 바이오파운드리와 기타 특수 실험실이 효과적으로 협업하려면, 다양한 실험·플랫폼에서 생성된 정보가 FAIR 원칙을 준수해야 하며, 그래야만 데이터가 원활히 통합·해석·활용될 수 있습니다. 이를 염두에 두고 우리는 PREFER를 개발하여 생물공정 데이터에 의미론적 구조를 부여하고, 상호운용성을 강화하며, AI 활용이 가능한 형태로 만들었습니다. 이러한 통합을 가능하게 함으로써 PREFER는 생물공정을 보다 경쟁력 있게 만들고, 살아있는 세포를 이용한 제조를 지속가능 바이오경제를 위한 진정한 규모 확장이 가능한 바이오솔루션으로 지원합니다.
PREFER는 도메인 전문가와 긴밀히 협업하여 생물공정 개념과 워크플로우를 정확히 표현하도록 설계되었습니다. 초기 목표는 서로 다른 실험에서 얻은 데이터셋을 수집·시각화·통합 계산할 수 있는 통합 환경을 구축하는 것이었습니다. 이를 위해서는 바이오리액터 계측기, 실험실 정보 관리 시스템(LIMS), 제조 실행 시스템(MES) 예: PAS‑X(https://www.koerberpharma.com/en/solutions/software/werum-pas-x-savvy ) 등에서 발생하는 데이터와 메타데이터를 분석하기에 유연한 구조가 필요했습니다.
데이터 모델을 설계하는 과정에서 통제된 어휘가 부족함을 확인하고, 생물공정에 관련된 명확히 정의된 개념들로 구성된 용어집을 만들었습니다. 개념 구조가 정립되면서 이 용어집은 의미 있는 계층 구조를 갖는 분류체(taxonomy)로 발전했습니다. 산업 4.0 원칙과 사이버‑물리 시스템을 지원하는 보다 표현력 있고 기계가 이해할 수 있는 프레임워크가 필요하다는 인식 아래, 우리는 단순 용어집·분류체를 넘어 온톨로지 전체를 구축했습니다. PREFER는 정밀 발효 분야의 지식을 계산적으로 해석 가능한 형태로 표준화하는 온톨로지입니다.
이 온톨로지는 입력(균주, 배지 성분, 장비)과 출력(제품, 부산물 및 이와 연관된 측정·계산 변수)을 포함한 바이오생산 공정 전체의 데이터 흐름을 모델링합니다{Figure 1}.
공정은 바이오리액터 유닛에 발효 배양액을 넣는 단계에서 시작되며, 세포 팩토리 수준으로 확대해 살펴볼 수 있습니다. 이 단계에서 미생물 균주는 기질을 소비하고 이를 제품·부산물로 전환하면서 동시에 바이오매스를 생성합니다.
발효는 시간에 따라 진행되며, 초기 바이오리액터 운영 설정값과 시작 조건을 정의한 뒤 지속적인 공정 데이터 수집이 이루어집니다. 이 과정에서 온라인 측정(예: pH, 온도, 압력, 부피)과 오프라인 샘플링(예: 바이오매스 샘플)으로 데이터가 수집됩니다. 측정·계산 변수와 오믹스 데이터 등 이질적인 데이터 스트림은 하위 분석의 기반이 됩니다. 이러한 데이터의 형식적·상호운용 가능한 표현은 PREFER 온톨로지를 통해 달성되며, 자세한 내용은 다음 섹션에서 설명합니다.
Figure 1. 발효 실행 과정을 시각화한 그림으로, 실험 데이터와 메타데이터가 어떻게 매핑되는지를 색상으로 구분된 노드와 함께 보여줍니다. 오른쪽에 핵심 개념과 PREFER 온톨로지의 의미론이 표시됩니다. 그림은 바이오리액터 → 배양액·셀 팩토리 과정 확대 → 실행 시간축 순으로 구성되어, 실행 중 데이터 수집·분석 흐름을 나타냅니다.
PREFER 온톨로지는 Basic Formal Ontology(BFO)와 호환되는 형태로 구축되어 논리적 일관성과 도메인 간 상호운용성을 보장합니다. 높은 표준을 유지하기 위해 OBO Foundry(24)와 FAIR 원칙(9)을 기반으로 개발되었습니다. 온톨로지는 8개의 기본 최상위 용어로 구성되며, 그 중 5개는 정밀 발효 공정을 기술하는 핵심 개념, 나머지 3개는 핵심 엔터티에 맥락·구조·의미 일관성을 제공하는 지원 용어입니다{Figure 2}. 이 기본 용어들은 BFO 용어이거나 BFO 하위 클래스이며, 프로세스 중심 지식의 상호운용성·확장성·명확한 표현을 지원하도록 설계되었습니다. PREFER가 OBO·BFO와 호환된다는 것은 Gene Ontology(GO)¹⁵, Phenotype And Trait Ontology(PATO)²⁶와 같은 바이오 온톨로지, 혹은 부분적으로 BFO와 호환되는 Financial Industry Business Ontology(FIBO)²⁷ 등과 손쉽게 연계될 수 있음을 의미합니다. 이는 기술·경제 평가(예: Techno‑Economic Assessment, TEA)²⁸와 같은 프레임워크와 결합해, 공정 효율·비용·시장 잠재력을 동시에 평가하는 데 유용합니다.
핵심 최상위 개념은 다음과 같습니다.
- Process Control Variable – 공정 입력을 나타냅니다.
- Precision Fermentation Process – 공정 자체와 이벤트를 모델링합니다.
- Process Measured Variable – 공정에서 측정된 값을 나타냅니다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.