다양한 데이터셋에서 47개 CBQA 모델 성능 비교 분석

초록

본 연구는 Hugging Face에 공개된 47개의 컨텍스트 기반 질문응답(CBQA) 모델을 8개의 서로 다른 벤치마크 데이터셋에 대해 추가 파인튜닝 없이 평가하였다. 전체 평균 정확도는 43 %였으며, 최고 성능 모델은 ahotrod/electra_large_discriminator_squad2_512였다. 모델 성능은 컨텍스트 길이, 답변 길이, 그리고 도메인 복잡도에 크게 영향을 받으며, 유전 알고리즘을 활용한 앙상블 기법으로 일부 데이터셋에서 정확도를 향상시킬 수 있었다.

상세 요약

본 논문은 현재 NLP 커뮤니티에서 널리 사용되는 사전학습 기반 CBQA 모델들의 실용성을 검증하기 위해, 파인튜닝 없이 그대로 적용했을 때의 전반적인 성능을 체계적으로 측정하였다. 47개의 모델은 Transformer 기반의 BERT, RoBERTa, ELECTRA, DeBERTa 등 다양한 아키텍처와 사전학습 목표를 포함하고 있었으며, 각각 SQuAD v1, SQuAD v2, 혹은 기타 도메인 특화 코퍼스로 사전학습된 버전을 사용하였다. 평가에 사용된 8개의 데이터셋은 일반적인 독해 데이터인 SQuAD v2, QuAC, 그리고 특수 도메인인 BioASQ 10b‑factoid, biomedical_cpgQA, IELTS 등으로 구성되어, 모델의 범용성 및 도메인 적응력을 동시에 검증할 수 있었다.

성능 측정은 정확도(Accuracy)와 F1 점수를 기준으로 진행했으며, 전체 평균 정확도는 43 %에 머물렀다. 이는 사전학습된 모델이 특정 도메인에 최적화되지 않은 경우, 컨텍스트 길이와 복잡도에 따라 성능이 급격히 저하될 수 있음을 시사한다. 특히, 답변 길이가 5 토큰 이상으로 늘어날수록 정확도가 평균 12 %포인트 감소했으며, 복잡한 문법 구조와 다중 문장으로 이루어진 컨텍스트는 모델의 추론 오류를 가중시켰다.

가장 높은 평균 정확도를 기록한 ahotrod/electra_large_discriminator_squad2_512는 ELECTRA‑large 아키텍처에 SQuAD v2 데이터셋을 기반으로 학습된 모델로, 512 토큰까지의 긴 컨텍스트를 효율적으로 처리한다. 이 모델은 BioASQ 10b‑factoid(65.92 %), biomedical_cpgQA(96.45 %), QuAC(11.13 %), QAD(41.6 %) 등에서 상대적으로 높은 점수를 얻었지만, IELTS 데이터셋에서는 BERT‑large‑uncased‑whole‑word‑masking‑finetuned‑squad가 82 %의 정확도로 최상위를 차지했다. 이는 도메인 특화된 언어와 어휘가 모델 성능에 미치는 영향을 강조한다.

또한, 연구팀은 유전 알고리즘 기반의 앙상블 전략을 도입해, 여러 모델의 예측을 조합함으로써 전체 정확도를 3 ~ 5 %포인트 상승시켰다. 이 방법은 개별 모델이 놓치는 정답 후보를 보완하고, 다중 모델 간의 상호 보완성을 활용한다는 점에서 실용적인 개선 방안으로 평가된다.

마지막으로, 모델 추론 시간은 파라미터 수와 컨텍스트 길이에 비례했으며, ELECTRA‑large가 가장 빠른 추론 속도를 보였지만, 메모리 사용량이 큰 모델은 실시간 서비스 적용에 제약이 있었다. 전반적으로, 사전학습된 CBQA 모델을 그대로 활용하려는 실무자는 모델 선택 시 사전학습 데이터셋, 컨텍스트 길이, 도메인 특성을 종합적으로 고려해야 함을 시사한다.

초록

상세 요약

📜 논문 원문 (영문)