자동 질문·답변 쌍 생성 시스템
초록
본 논문은 텍스트에서 질문과 정답을 동시에 생성하는 두 단계 모델을 제안한다. 첫 단계에서는 Pointer Network를 이용해 문장 내 핵심 정답 구간을 찾고, 두 번째 단계에서는 풍부한 언어학적 특징과 전역 어텐션을 결합한 Seq2Seq 구조로 해당 정답에 가장 적합한 질문을 생성한다. 실험 결과, 기존 질문 생성 모델 대비 BLEU·ROUGE·METEOR 점수가 크게 향상되었으며, 인간 평가에서도 질문의 자연스러움과 적합성이 우수함을 확인하였다.
상세 분석
이 연구는 질문‑답변 쌍 자동 생성이라는 복합 문제를 두 개의 서브태스크로 분해함으로써 기존 방법들의 한계를 효과적으로 극복한다. 첫 번째 서브태스크인 정답 스팬 추출에서는 Pointer Network를 활용한다. 입력 문장을 단어 수준의 임베딩으로 변환한 뒤, 양방향 LSTM 인코더를 통해 컨텍스트 정보를 획득하고, 디코더 단계에서 시작·끝 위치를 각각 포인터로 예측한다. 이때 어텐션 메커니즘을 적용해 문장 전체의 가중치를 동적으로 조정함으로써 희귀 단어와 다중 정답 후보가 존재하는 경우에도 정확한 스팬을 찾아낼 수 있다.
두 번째 서브태스크인 질문 생성에서는 전통적인 Encoder‑Decoder 구조에 여러 언어학적 특징을 추가한다. 기본 인코더는 Bi‑LSTM이며, 입력 토큰마다 품사(POS), 명사구(NER), 의존 구문 트리 정보 등을 별도 임베딩으로 결합한다. 이러한 풍부한 특징은 모델이 문법적 구조와 의미적 역할을 명확히 파악하도록 돕는다. 디코더는 LSTM 기반이며, 전역 어텐션(Global Attention)과 함께 정답 스팬 인코딩을 추가 입력으로 제공한다. 정답 인코딩은 정답 스팬의 평균 풀링 벡터와 해당 스팬의 위치 정보를 결합한 형태로, 질문 생성 시 정답과의 의미적 연관성을 강화한다.
학습 목표는 조건부 확률 P(Q|S) 를 최대화하는 것이며, 정답 스팬이 주어졌을 때 질문 Q 를 생성하도록 설계된 손실 함수는 질문 생성 손실과 정답 추출 손실을 가중합한다. 이를 통해 두 단계가 상호 보완적으로 최적화된다. 실험에서는 SQuAD와 MS MARCO 등 공개 데이터셋을 사용해 BLEU‑4, ROUGE‑L, METEOR, 그리고 인간 평가 점수를 측정하였다. 베이스라인인 단일 Seq2Seq 질문 생성 모델과 비교했을 때, 제안 모델은 BLEU‑4에서 평균 5.2점, ROUGE‑L에서 6.8점, METEOR에서 4.5점 상승했으며, 인간 평가에서는 질문의 적합성, 자연스러움, 그리고 정답과의 일치도에서 유의미한 개선을 보였다.
또한, Ablation Study를 통해 각 구성 요소의 기여도를 분석하였다. 정답 스팬 포인터 네트워크를 제외하면 정답 추출 정확도가 12% 감소했고, 언어학적 특징을 제거하면 질문의 문법적 오류 비율이 9% 증가했다. 전역 어텐션을 없앨 경우 질문‑정답 연관성 점수가 7% 낮아지는 등, 모든 모듈이 전체 성능에 필수적임을 확인하였다. 마지막으로, 웹 기반 데모 시스템을 제공하여 실시간으로 텍스트 입력 → 질문·답변 쌍 출력까지의 파이프라인을 시연함으로써 실제 적용 가능성을 입증하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기