대규모 분자 구조 언어 데이터셋 구축을 위한 규칙 기반 자동 주석 방법
초록
본 논문은 OPSIN 기반의 규칙 기반 파서를 확장하여 IUPAC 명칭을 구조화된 XML 메타데이터로 변환하고, 이를 LLM에 입력해 정확한 분자 구조 서술을 자동 생성한다. 163 k 개의 분자‑설명 쌍을 구축했으며, 2 000개 샘플에 대한 LLM·전문가 검증을 통해 98.6 %의 정확도를 달성하였다.
상세 분석
이 연구는 분자‑언어 정렬을 위해 “구조‑기반 설명”이 필수적이라는 가정에서 출발한다. 기존 데이터셋은 인간 전문가가 1시간 이상 소요되는 고비용 작업에 의존했으나, 저자는 완전 자동화 파이프라인을 설계함으로써 규모와 품질을 동시에 확보한다. 핵심은 OPSIN(규칙 기반 IUPAC 파서)의 내부 파스 트리를 그대로 사용하지 않고, 토큰화·의미역 할당 정보를 바탕으로 누락된 결합, 입체, 고리 융합 등 중요한 토폴로지를 모두 포함하는 풍부한 XML 메타데이터로 재구성한 점이다. 이 메타데이터는 (1) 각 치환기와 위치, (2) 고리 라벨링 및 융합 관계, (3) 입체화학 표기 등을 명시적으로 기록한다. 이렇게 정제된 구조 정보를 프롬프트에 삽입하면 LLM이 SMILES 기반 추론에서 발생하는 오류를 크게 감소시켜, “벤젠 고리 위에 ortho 위치에 –OH와 –NO₂가 결합”과 같은 정확하고 간결한 서술을 생성한다. 데이터 규모는 163 085개의 쌍으로, 평균 분자량·복잡도 분포가 넓어 실제 화학 연구에 적용 가능하다. 검증 단계에서는 GPT‑4‑Turbo와 인간 화학 전문가가 2 000개 샘플을 평가했으며, 98.6 %가 구조적으로 정확하고 모호함이 없다고 판단했다. 또한, 메타데이터 없이 순수 SMILES 입력으로 생성한 설명과 비교한 소거 실험에서 정확도 차이가 12 % 이상 감소함을 보여, 제안된 규칙‑정규화가 핵심 역할을 함을 입증한다. 한계로는 현재 IUPAC 명칭에만 의존하므로, 비표준 명명법이나 복합 혼합물에 대한 확장은 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기