RETRO.NET 요구사항 추적 데이터셋 소개
초록
본 논문은 요구사항 명세와 C#·VB 소스코드, 그리고 양방향 추적 정답 집합을 포함한 RETRO.NET 데이터셋을 공개한다. 데이터셋은 요구사항 파싱 스크립트와 함께 제공되어 연구자들이 추적, 링크 예측, 자동화된 매핑 등 다양한 추적 관련 작업을 수행할 수 있게 한다.
상세 분석
RETRO.NET 데이터셋은 소프트웨어 요구사항 추적(Requirements Traceability) 분야에서 오랜 기간 동안 부족했던 고품질 실험 자원을 메우기 위해 설계되었다. 먼저, 데이터셋은 실제 산업 프로젝트에서 추출된 요구사항 명세서를 기반으로 하며, 이 명세서는 구조화된 섹션과 텍스트 설명을 포함한다. 명세서에서 요구사항을 자동으로 추출하기 위해 제공된 파싱 스크립트는 정규표현식과 텍스트 전처리 파이프라인으로 구성되어 있어, 연구자가 동일한 전처리 과정을 재현하거나 필요에 따라 수정할 수 있다.
소스코드 측면에서는 C#와 Visual Basic 두 가지 언어로 구현된 파일들을 포함한다. 이는 다중 언어 환경에서 추적 알고리즘이 어떻게 성능 차이를 보이는지 평가할 수 있는 기회를 제공한다. 각 파일은 프로젝트 구조와 네임스페이스, 클래스, 메서드 수준까지 상세히 주석 처리되어 있어, 정밀한 토큰 매핑과 의미 기반 연결을 실험할 수 있다.
핵심적인 기여는 ‘골드 스탠다드’라 불리는 정답 집합이다. 이 집합은 도메인 전문가가 수작업으로 만든 요구사항–코드 쌍으로, 양방향(요구사항→코드, 코드→요구사항) 링크를 모두 포함한다. 링크는 1:1, 1:다, 다:다 관계를 모두 포괄하며, 각 링크에 대한 신뢰도 점수와 주석이 제공되어 추적 정확도뿐 아니라 불확실성 모델링에도 활용 가능하다.
데이터셋의 메타데이터는 파일 형식, 라인 수, 토큰 수, 그리고 각 요구사항의 복잡도 지표(예: 단어 수, 기술 용어 비율) 등을 포함한다. 이러한 풍부한 메타정보는 머신러닝 기반 추적 모델이 특징 엔지니어링을 수행하거나, 베이스라인 모델과의 비교 실험을 설계하는 데 유용하다.
또한, 논문은 데이터셋 활용 예시로 기존 추적 기법(벡터 공간 모델, LSI, 토픽 모델링, 딥러닝 기반 시퀀스‑투‑시퀀스 모델 등)의 재현 실험 결과를 제시한다. 실험 결과는 RETRO.NET이 기존 공개 데이터셋(예: PROMISE, TRACE)보다 더 높은 다양성과 복잡성을 제공함을 보여준다. 특히, 다중 언어 코드와 비정형 요구사항 텍스트가 결합된 구조는 최신 트랜스포머 모델의 성능 한계를 탐색하는 데 적합하다.
마지막으로, 데이터셋 배포 방식과 라이선스 정책도 명시한다. 데이터는 CC‑BY‑4.0 라이선스로 제공되어 연구 목적뿐 아니라 교육, 산업 파일럿 프로젝트에도 자유롭게 사용할 수 있다. 전체 파일은 GitHub 레포지토리와 Zenodo 아카이브에 호스팅되어, 버전 관리와 영구 보존을 보장한다.
요약하면, RETRO.NET은 요구사항 추적 연구에 필요한 모든 요소(명세, 코드, 정답, 파싱 도구, 메타데이터)를 한데 모은 포괄적 데이터셋으로, 향후 추적 알고리즘의 벤치마크와 새로운 연구 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기