자연어 자동 요약의 현주소와 미래
초록
본 리뷰는 자연어 자동 요약 연구의 역사를 조망하고, 추출적·추상적, 지도·비지도, NLP 기반·지식 기반, 딥러닝·전통 알고리즘, 구조화·비구조화 데이터, 그리고 Rouge·BLEU 등 평가 지표 등 여섯 가지 축을 중심으로 최신 연구 동향을 비교·분석한다. 특히 추상적 요약의 측정 문제를 재조명하며, 이해와 인지 측정에 대한 새로운 시사점을 제시한다.
상세 분석
자동 요약은 크게 추출적(extractive)과 추상적(abstractive) 두 축으로 나뉜다. 추출적 방법은 원문에서 핵심 문장을 그대로 선택하는 방식으로, TF‑IDF, 그래프 기반(TextRank) 등 전통적인 알고리즘부터 BERT‑Score를 활용한 최신 모델까지 폭넓게 적용된다. 장점은 구현이 비교적 간단하고, 원문과의 일관성이 높으며, 평가 지표(Rouge‑1, Rouge‑2)와의 상관관계가 강하다는 점이다. 그러나 정보 재구성 능력이 제한적이며, 중복 문장이나 불필요한 세부사항을 제거하지 못한다는 한계가 있다.
반면 추상적 요약은 텍스트를 재구성·재작성하여 인간이 직접 서술한 것과 유사한 결과물을 만든다. Seq2Seq, Transformer, BART, T5와 같은 대규모 사전학습 모델이 핵심 기술이며, 최근에는 프롬프트 기반의 GPT‑계열 모델이 뛰어난 생성 능력을 보인다. 하지만 ‘사실성(factuality)’ 문제, 즉 생성된 문장이 원문과 일치하지 않거나 허위 정보를 포함할 위험이 크다. 또한 평가가 어려워 BLEU, ROUGE 외에 QAEval, BERTScore, FactCC 등 다중 지표를 조합해야 한다.
지도(supervised)와 비지도(unsupervised) 접근법에서도 뚜렷한 차이가 있다. 지도 방식은 대규모 요약 데이터셋(CNN/DailyMail, XSum 등)을 필요로 하며, 데이터 편향이 모델 성능에 직접적인 영향을 미친다. 비지도 방식은 군집화, 핵심 문장 추출, 혹은 사전학습 언어 모델을 활용한 자체 생성 기법으로, 도메인 전이와 적은 라벨 비용이라는 장점을 제공한다. 그러나 현재 비지도 모델은 추출적 성능에 머무는 경우가 많아, 추상적 품질을 높이기 위한 혼합 학습이 활발히 연구되고 있다.
NLP 기반과 지식 기반(Knowledge‑based) 접근도 중요한 축이다. 순수 NLP 모델은 텍스트 자체의 통계와 패턴을 학습하지만, 외부 지식 그래프(예: DBpedia, Wikidata)를 결합하면 사실성 검증과 도메인 특화 요약에 강점을 가진다. 최근에는 Retrieval‑Augmented Generation(RAG) 구조가 요약에 적용돼, 검색된 사실 정보를 텍스트와 결합해 보다 정확한 추상적 요약을 생성한다.
딥러닝과 전통 알고리즘의 비교에서도 흥미로운 현상이 나타난다. 전통 알고리즘은 계산 비용이 낮고, 작은 데이터에서도 안정적인 성능을 보인다. 반면 딥러닝은 대규모 데이터와 GPU 자원을 필요로 하지만, 복잡한 언어 구조와 장기 의존성을 모델링하는 데 뛰어나다. 실제 산업 현장에서는 두 접근을 혼합해, 초기 후보 문장을 전통 알고리즘으로 추출하고, 이를 딥러닝 기반 재작성기로 다듬는 파이프라인이 많이 채택된다.
구조화된 데이터(예: 표, 트리)와 비구조화된 텍스트 간의 요약 차이도 무시할 수 없다. 구조화된 소스는 레이아웃 정보와 셀 간 관계를 활용해 요약할 수 있어, Table2Text, Graph2Seq 모델이 등장했다. 비구조화된 텍스트는 문맥 흐름을 파악하는 것이 핵심이며, 최근 멀티모달 요약 연구는 이미지·텍스트를 동시에 처리해 보고서나 논문 요약에 적용되고 있다.
마지막으로 평가 지표의 한계가 강조된다. Rouge는 n‑gram 일치를 기반으로 하여 문법적 정확성은 측정하지만, 의미적 일관성이나 사실성은 반영하지 못한다. BLEU 역시 기계 번역에서 유래된 지표로, 요약 특성에 맞지 않는다. 따라서 최근 연구는 QAEval(질문‑답변 기반), FactCC(사실성 검증), 그리고 인간 평가를 결합한 다중 지표 체계를 제안한다. 특히 이 리뷰는 추상적 요약의 ‘이해·인지 측정’이라는 새로운 관점을 제시하며, 요약 모델이 실제로 텍스트를 ‘이해’했는지를 판단하는 메트릭 개발이 향후 핵심 과제로 부각된다고 결론짓는다.
댓글 및 학술 토론
Loading comments...
의견 남기기