대형 언어 모델의 비즈니스 프로세스 모델링 역량 평가

대형 언어 모델의 비즈니스 프로세스 모델링 역량 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 자연어 설명을 BPMN 다이어그램으로 변환하는 대형 언어 모델(LLM)의 품질을 네 가지 차원(구문, 실용, 의미, 유효성)으로 평가하는 BEF4LLM 프레임워크를 제안하고, 17개의 오픈소스 LLM을 105개의 텍스트‑BPMN 쌍에 대해 실험한다. 결과는 LLM이 구문·실용성에서는 인간 전문가와 비슷한 수준을 보이나, 의미적 정확성과 모델 유효성에서는 아직 개선 여지가 있음을 보여준다.

상세 분석

BEF4LLM은 기존 SIQ 프레임워크를 확장해 39개의 세부 메트릭을 네 가지 품질 차원에 매핑한다. 구문 품질은 BPMN XML 스키마 준수, 요소 명명 규칙, 흐름 연결 정확성 등을 검사하며, 실용 품질은 모델의 가독성, 레이아웃 일관성, 복잡도(노드·엣지 수) 등을 정량화한다. 의미 품질은 텍스트 설명과 모델 간의 의미적 일치도를 평가하는데, 여기에는 활동 라벨의 의미적 정확성, 게이트웨이 선택의 적절성, 프로세스 흐름의 논리적 일관성이 포함된다. 마지막으로 유효성은 생성된 BPMN XML이 파싱 오류 없이 실행 가능한지를 검증한다.

실험 설계는 17개의 오픈소스 LLM(파라미터 규모 0.5B~235B, 다양한 컨텍스트 길이)과 105개의 도메인 다양성을 갖춘 텍스트‑BPMN 페어를 사용한다. 각 모델은 동일한 프롬프트 템플릿으로 호출되며, 온도 파라미터는 0.2로 고정해 재현성을 확보한다. 인간 전문가 그룹은 동일한 텍스트를 기반으로 BPMN을 수작업으로 작성하고, 동일한 BEF4LLM 메트릭으로 평가한다.

통계 분석 결과, 파라미터 규모와 품질 점수 사이에는 약한 상관관계만 존재한다. 예를 들어, 70B 모델이 14B 모델보다 구문 점수는 약 3% 높지만, 의미 점수 차이는 1% 미만에 불과했다. 이는 모델 크기가 단순히 구문적 정확성을 높일 뿐, 비즈니스 로직을 정확히 이해하고 반영하는 능력은 별도의 훈련 데이터와 파인튜닝이 필요함을 시사한다. 또한, 전체 모델 중 22%만이 BPMN XML을 무결하게 생성했으며, 나머지는 태그 누락이나 잘못된 연결로 파싱 오류를 일으켰다. 이는 현재 LLM이 복잡한 XML 구조를 완전하게 다루는 데 한계가 있음을 보여준다.

인간 전문가와 비교했을 때, LLM은 구문(92점 vs 95점)과 실용(88점 vs 90점)에서 근소한 차이만 보였지만, 의미(79점 vs 85점)와 유효성(71점 vs 88점)에서는 눈에 띄는 격차가 있었다. 특히 의미 품질에서 LLM은 종종 활동 라벨을 과도하게 일반화하거나, 조건 분기에서 부적절한 게이트웨이를 선택하는 경향을 보였다. 이러한 오류는 비즈니스 의사결정에 직접적인 영향을 미칠 수 있어 실무 적용 시 주의가 필요하다.

결론적으로, BEF4LLM은 LLM 기반 BPMN 생성 품질을 다각도로 정량화할 수 있는 유용한 도구이며, 현재 LLM은 구문·실용성에서는 인간 수준에 근접했지만, 의미적 정확성과 모델 유효성 확보를 위해서는 도메인 특화 파인튜닝과 구조화된 출력 제어 메커니즘이 필수적이다. 향후 연구는 의미 품질을 향상시키는 프롬프트 설계, 체인‑오브‑생성 방식, 그리고 XML 검증을 포함한 후처리 파이프라인을 개발하는 방향으로 진행될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기