대형 언어 모델의 주관적 텍스트 영역 식별 능력은?

2026년 02월 04일

읽는 시간: 9 분

...

#paper #AI 요약

📝 원문 정보

- Title: Exploring the Performance of Large Language Models on Subjective Span Identification Tasks
- ArXiv ID: 2601.00736
- 발행일: 2026-01-02
- 저자: Alphaeus Dmonte, Roland Oruche, Tharindu Ranasinghe, Marcos Zampieri, Prasad Calyam

📝 초록

텍스트 스패닝을 식별하는 것은 NLP의 여러 하류 작업에 중요하며, 이는 모델 설명 가능성에 기여합니다. 대부분의 스패닝 식별 접근 방법은 BERT와 같은 상대적으로 작은 사전 훈련된 언어 모델에 의존하지만, 최근 몇 가지 접근 방식은 대규모 언어 모델(LLMs)을 이 작업에 활용하였습니다. 현재의 연구는 명명된 엔터티 인식(NER)과 같이 명시적인 스패닝 식별에 집중한 반면, 주관적 스패닝 식별과 LLMs를 사용한 감성 기반 분석(ABSA) 작업은 충분히 탐구되지 않았습니다. 본 논문에서는 이 중요한 간극을 메꾸기 위해 세 가지 인기 있는 작업인 감성 분석, 모욕적 언어 식별 및 주장 검증에서 다양한 LLMs의 성능을 평가합니다. 우리는 지시 조정, 상황 학습, 사고 체인 등 여러 가지 LLM 전략을 탐구하였습니다. 우리의 결과는 텍스트 내의 기본적인 관계가 LLMs이 정확한 텍스트 스패닝을 식별하는 데 도움이 된다는 것을 나타냅니다.

💡 논문 해설

1. **주요 기여 1:** 본 논문은 LLMs가 복잡한 텍스트에서 다양한 종류의 스패닝을 식별하는 데 더 효과적임을 보여줍니다. 이는 마치 정원사가 여러 가지 꽃을 식별하고 관리하는 것과 같습니다. 2. **주요 기여 2:** 연구에서는 모델 크기와 학습 방법이 LLMs의 성능에 미치는 영향을 분석합니다. 이것은 차량에서 엔진 크기에 따라 속도가 달라지는 것과 비슷한 개념입니다. 3. **주요 기여 3:** 본 논문은 자원 부족 환경에서도 LLMs의 효율성을 평가하고, 작은 모델이 큰 모델보다 더 효과적일 수 있음을 보여줍니다. 이는 마치 작은 배가 빠르게 움직이는 것과 비슷한 개념입니다.

📄 논문 발췌 (ArXiv Source)

# 소개

비속어 식별, 감성 분석 및 주장 확인은 사회 미디어 분석과 NLP의 교차점에서 가장 널리 연구된 작업들 중 일부입니다. 이러한 작업의 대부분은 게시글 수준의 범주적 레이블을 예측하는 데 초점을 맞춥니다. 예를 들어 감성 분석에서는 이러한 레이블들이 종종 긍정, 중립, 그리고 부정과 같은 용어로 표현되거나 긍정에서 부정으로 이어지는 연속체를 나타내는 Likert 척도로 표시됩니다.

여러 연구들은 모델의 설명 가능성에 대해 프레임워크, 데이터셋 및 토큰 스패닝 예측을 통해 텍스트 속 특성을 식별하는 모델을 개발함으로써 다루었습니다. 비속어 스패닝 감지 작업에서처럼, 이러한 모델은 비속어 게시물의 스패닝을 예측하여 비속어 레이블 예측에 대한 지표를 제공합니다. 단일 토큰 스패닝을 넘어서, 연구자들은 또한 텍스트 요소 간 관계를 포착하는 더 구조화된 형식을 제안했습니다. 이러한 형식 중 가장 잘 알려진 것 중 하나는 Aspect-Based Sentiment Analysis (ABSA)로, 이는 텍스트 내에서 측면과 관련된 감성들을 식별하는 것을 목표로 합니다. 이 접근법은 특히 혼합 감성이 있는 경우에 효과적입니다. 예를 들어 “음식은 맛있었지만 서비스는 매우 느렸다"와 같은 레스토랑 리뷰에서 각 텍스트의 일부가 서로 반대되는 의견을 표현하고 있습니다. 이 논문에서는 복잡한 텍스트와 간단한 텍스트를 다음과 같이 정의합니다:

복잡한 텍스트 - 여러 종류의 상호 연관된 스패닝이 포함되어 있고, 이러한 관련 스패닝은 서로 다른 범주에 속하는 텍스트. 예를 들어 ABSA에서의 Target과 Aspect.
간단한 텍스트 - 단일 스패닝 카테고리만을 포함하는 텍스트. 예를 들면 비속어 스패닝 또는 주장 스패닝이 포함된 텍스트.

LLMs는 생성과 예측 등 다양한 NLP 작업에서 최첨단 성능을 달성했습니다. 최근 LLMs의 시퀀스 레이블링 작업에 대한 평가 연구들은 BERT 모델들이 여전히 in-context learning 환경에서 LLMs보다 우수한 성능을 보여준다는 것을 제시했습니다. 또한 분류 작업에서 LLMs의 성능을 개선하기 위한 접근법을 제안하였습니다. NER과 감성 분석 작업에 대해 LLMs이 탐구되었지만, 비속어 스패닝 및 주장 스패닝 식별과 같은 다른 토큰 분류 작업에는 아직 활용되지 않았으며, 이 논문은 이러한 간극을 메우는 것을 목표로 합니다.

본 논문은 다음과 같은 연구 질문을 다룹니다:

RQ1: 텍스트의 복잡성은 LLM들이 다양한 종류의 스패닝을 식별하는 능력에 어떻게 영향을 미치나요? 모델들은 특정 스패닝 유형을 다른 유형보다 효율적으로 식별하나요?
RQ2: 모델 크기와 모델링 전략은 LLM들의 스패닝 식별 능력에 어떻게 영향을 미치나요?
RQ3: LLMs는 자원 부족 환경에서 효율적인가요?

데이터셋

실험을 위해 네 개의 영어 데이터셋을 획득했습니다: 복잡한 텍스트 스패닝과 간단한 텍스트 스패닝 각각 두 개입니다. 각 데이터셋에서의 예시 인스턴스는 표 [tab:dataset-examples]에 제시되었으며, 데이터 통계는 표 [tab:data-stats]에서 제공됩니다.

복잡한 텍스트 데이터셋

**Target Based Offensive Language (TBO)**와 Aspect Based Sentiment Analysis (ABSA) 데이터셋을 획득하였습니다. TBO 데이터셋의 인스턴스는 텍스트 내의 비속어 구절인 Arguments와 이들의 대상인 Targets으로 주석화되었습니다. ABSA 데이터셋은 측면과 그에 해당하는 Opinion 스패닝을 주석화하였습니다.

간단한 텍스트 데이터셋

**Claim Spans Identification (CSI)**와 Toxic Span Detection (TSD) 데이터셋을 사용합니다. CSI는 소셜 미디어 게시물에서 주장 스패닝으로 주석화되었으며, TSD 데이터셋은 독소 및 유해한 스패닝에 대해 주석화되었습니다.

실험

실험에서 사용된 모델들에 대해 설명합니다. BERT 모델들은 작업별 데이터셋으로 미세 조정되었으며, LLMs은 지시어 훈련, in-context 학습 및 사고 체인을 활용하였습니다.

베이스라인

실험의 베이스라인으로 BERT-large 모델을 사용합니다. 이 모델은 작업별 교육 데이터셋으로 미세 조정됩니다. 진행 테스트를 위해, 모델들은 학습 세트에서 무작위로 샘플링된 부분 집합으로 미세 조정됩니다.

LLMs

다양한 모델 크기를 평가하기 위해 Qwen2.5와 Llama-3.1 모델 패밀리들을 활용하였습니다. 구체적으로, Qwen은 7B, 14B, 32B 및 72B 매개변수 변형을 사용하였으며, Llama는 8B와 70B를 사용하였습니다.

접근법

실험에서 세 가지의 LLM 접근법을 활용합니다. 모든 LLM들은 모든 작업에 대해 지시어 훈련(IT)을 받았습니다. 작업별 예제 프롬프트는 부록 8.1에서 확인할 수 있습니다. in-context 학습(ICL)은 오프-더-shelf 모델을 평가하기 위해 사용되었습니다. 특히, 0-, 3-, 및 5-shot 접근법이 사용되었습니다. 몇 가지 샷 학습에서는 각 테스트 인스턴스에 대한 임베딩을 생성하고, 학습 세트에서 상위-k 유사 인스턴스를 몇 가지 샷 예시로 사용합니다. 마지막으로, 사고 체인(CoT) 프롬프팅 전략을 토큰 스패닝 식별에 활용하였습니다.

평가 지표

다음 두 지표를 사용하여 모델의 성능을 평가합니다: **토큰 F1 (TF1)**은 개별 토큰을 고려한 F1 점수를 계산하며, 최종 F1-점수는 모든 인스턴스에 걸쳐 평균화됩니다. **스패닝 F1 (SF1)**은 골드 표준 주석과의 정확한 일치를 고려합니다. F1 점수는 모든 인스턴스에서 총 올바른 예측을 기반으로 계산됩니다.

결과

표 [tab:combined-results]는 모든 작업에 대한 최고 성능 Llama와 Qwen 모델의 토큰 수준과 스패닝 수준 F1 점수를 보여줍니다. (모든 다른 모델의 성능은 표 [tab:all-results]에서 확인 가능합니다). TBO 및 ABSA 작업에서는 몇 가지 샷 학습이 가장 우수한 성능을 보였으며, 그 다음으로 지시어 훈련된 모델들이 있습니다. CoT는 이러한 작업들에서 최하위 성능을 보였지만, 타겟과 주장 스패닝 식별에서는 제로샷에 비해 성능이 유사합니다. 그러나 ABSA에서는 제로샷 설정에서 측면 스패닝 식별이 CoT보다 더 효율적입니다.

간단한 텍스트에서는 TSD 작업에서 지시어 훈련된 모델들이 다른 접근법을 능가하였습니다. 하지만 CSI 작업에서는 지시어 훈련된 Llama 모델들이 대부분의 다른 모델과 접근법에 비해 성능이 저조했습니다. 이 텍스트 유형에 대한 LLMs의 5-shot 성능은 3-shot 평가보다 약간 더 좋습니다. 제로샷 설정에서는 CSI에서 모델들은 몇 가지 샷 평가와 유사한 성능을 보였으나, TSD에는 큰 성능 차이가 있었습니다. CoT는 TSD 작업에서는 제로샷에 비해 성능이 더 우수했지만, CSI 작업에서는 저조했습니다.

토론

본 절에서는 섹션 1에서 언급된 네 가지 연구 질문을 재검토합니다.

RQ1:

텍스트의 복잡성은 LLM들이 다양한 종류의 스패닝을 식별하는 능력에 어떻게 영향을 미치나요? 모델들은 특정 스패닝 유형을 다른 유형보다 효율적으로 식별하나요?

섹션 5에서 보듯이, LLM들은 복잡한 스패닝에 대해 간단한 스패닝보다 더 우수한 성능을 나타냅니다. 이러한 모델들은 텍스트 내에서 명시적으로 언급된 스패닝 유형, 예를 들어 TBO의 대상이나 ABSA의 측면 등을 식별하는 데 효과적입니다. 그러나 LLMs은 문맥에 의존적이거나 간접 표현인 주관적인 스패닝을 식별하는 데 어려움이 있을 수 있습니다. 예를 들어 “너는 나에게 죽었다"라는 문장은 비속어 단어가 포함되어 있지 않음에도 불구하고 공격적일 수 있습니다. 이러한 종류의 스패닝들은 모호성, 해석 가능성, 암시적인 성질 등이 LLMs의 성능에 영향을 줄 수 있습니다. 이러한 요소들이 토큰 스패닝 식별에서 LLMs의 성능에 영향을 미치는 데 더불어, 무관한 토큰 식별, 토큰 스패닝을 여러 개의 독립된 스패닝으로 분할하는 것 등도 LLMs의 낮은 성능을 가져올 수 있습니다. 예를 들어 TSD 작업에서 LLMs는 독소 스패닝뿐만 아니라 문맥 단어까지 식별하는 경향이 있습니다 (그림 6 참조). 이러한 요소들이 특히 특정 작업의 낮은 Span F1 점수에 기여합니다.

또한 텍스트 복잡성이 LLMs 성능에 어떻게 영향을 미치는지 식별하려고 합니다. TBO와 ABSA 두 가지 복잡한 작업에 대해, 모델들이 각각의 스패닝 유형을 개별적으로 및 함께 식별하는 데 얼마나 잘 수행되는지를 확인하기 위해 100개 인스턴스 샘플을 제로샷 설정에서 평가합니다. 그림 1에서 볼 수 있듯이, 모델들이 두 가지 스패닝 유형을 함께 식별하도록 프롬프트를 받은 경우 개별적으로 식별하도록 프롬프트를 받았을 때보다 우수한 성능을 보입니다. 이는 텍스트의 복잡성과 서로 다른 스패닝 유형 간 관계가 LLMs이 다양한 종류의 스패닝을 정확하게 식별하는 데 도움이 된다는 것을 나타냅니다.

복잡한 텍스트 스패닝 식별의 토큰 F1 및 Span F1 점수. 플롯은 각각의 스패닝 유형이 개별적으로 및 함께 추출될 때의 점수를 보여줍니다.

RQ2:

모델 크기와 모델링 전략은 LLM들의 스패닝 식별 능력에 어떻게 영향을 미치나요?

결과는 복잡한 텍스트에서 몇 가지 샷 설정의 LLMs이 모든 다른 접근법보다 우수한 성능을 보여준다는 것을 나타냅니다. 프롬프트 내의 in-context 예제들은 모델들이 다양한 종류의 스패닝을 식별하는 데 도움을 줍니다. CoT는 제로샷 학습에 비해 부진하였으며, IT는 특히 주관적 스패닝에서 모델 성능을 향상시킵니다. CSI와 TSD 모두에서 지시어 튜닝이 모든 다른 접근법보다 우수한 성능을 보여주었습니다. 제로샷과 CoT에서는 TSD 작업에 어려움을 겪습니다. 출력 분석은 일부 접근법이 무관하거나 부가적인 텍스트 스패닝을 생성하는 것을 나타냅니다. 또한 몇 가지 샷 학습은 BERT 모델보다 TBO와 CSI에서 우수한 성능을 보였으며, IT는 TSD에서는 BERT와 유사한 성능을 보입니다.

결과는 모델 크기가 증가함에 따라 성능이 향상된다는 것을 나타냅니다. 이 가설을 검증하기 위해 7B에서 72B 매개변수까지 다양한 모델 크기를 실험하였습니다. 우리의 실험 결과는 모델 크기의 증가와 함께 성능은 미세하게 향상됨을 보여줍니다. 전체적인 결과에서는 Qwen 모델들 중 7B 매개변수 모델이 가장 낮은 성능을 나타내며, 14B, 32B 및 72B는 서로를 능가하는 경우가 있습니다. 반면 Llama 모델들에서 70B 모델이 일관되게 8B 모델보다 우수한 성능을 보였습니다. 그러나 다양한 매개변수 크기의 모델 간 성능 차이는 미세합니다. 대형 모델에 필요한 광범위한 계산 자원과 미미한 성능 향상으로 인해 이러한 작업에는 더 작은 모델이 효율적인 선택일 수 있습니다.

RQ3:

LLMs는 자원 부족 환경에서 효율적인가요?

언어 모델을 학습시키기 위해서는 광범위한 교육 데이터가 필요합니다. 그러나 일부 토큰 분류 작업에서는 데이터 부족이 있을 수 있습니다. 따라서 언어 모델의 성능에 데이터 부족이 어떻게 영향을 미치는지 평가하기 위해 다양한 학습 데이터 크기(200개에서 1,000개 샘플까지)로 작은 언어 모델(SLM)과 대형 언어 모델(LLM)을 미세 조정하였습니다. 이 특정 실험에서는 BERT-large와 Qwen-7B 모델의 성능을 비교합니다.

실험 결과는 TBO, ABSA 및 TSD 작업에서 모든 데이터 크기에서 BERT가 Qwen-7B 모델보다 우수한 성능을 보인다는 것을 나타냅니다 (그림 7 참조). 성능은 스패닝 유형과 사용된 학습 예제의 수에 따라 달라지며, 일부 스패닝 유형에서는 유사한 반면 다른 것에는 큰 차이가 있습니다. 그러나 CSI에서 SLM은 특히 Span F1 점수에서 LLM을 능가했습니다. 이는 LLM이 정확한 주장 스패닝을 더 정밀하게 식별한다는 것을 의미합니다. 이러한 결과는 작은 모델들이 특정 작업에서는 더 효과적일 수 있음을 시사합니다.

ArXiv 원문 PDF 보기