제약 없는 프롬프트가 드러낸 LLM의 숨은 성향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 주제와 과업이 명시되지 않은 최소한의 프롬프트를 이용해 16개 LLM의 “생각의 최상위” 출력을 대규모로 생성·분석한다. 모델마다 프로그래밍·수학, 문학·철학, 종교·다중선택 등 뚜렷한 토픽 선호도가 존재함을 밝혀냈으며, GPT‑OSS는 기술 깊이가 가장 높고 Llama는 반복적인 개인 SNS URL을, Qwen은 중국어와 감정 표현을, DeepSeek은 종교 구절을 자주 생성한다. 또한, 제약 없는 생성이 반복 구문(퇴화 텍스트)으로 수렴하는 현상도 모델별 특징으로 드러났다. 256 k 샘플 데이터와 코드가 공개된다.

상세 분석

이 연구는 “토픽‑중립·오픈‑엔드” 프롬프트 36개를 여섯 가지 스타일(대화형 완화, 사고 흐름, 선언형, 수사적 질문, 정보 제공, 구두점 전용)로 설계하고, 챗 템플릿을 배제한 순수 autoregressive 생성 환경을 만든다. 온도 1.0, top‑p 0.9라는 동일 하이퍼파라미터를 적용해 각 모델당 16 000개, 총 256 000개의 텍스트를 수집하였다. 생성물에서 퇴화 텍스트를 정의하고(연속 10자 이상 구문이 5회 이상 반복, 전체 길이의 5% 이상 차지) 이를 최초 등장 지점에서 절단함으로써 “정제된” 코퍼스를 만든다. 이후 GPT‑OSS‑120B를 라벨러로 활용해 일반 카테고리와 세부 서브카테고리를 부여하고, Qwen3‑Embeddings‑8B로 임베딩을 추출해 UMAP 시각화와 클러스터 분석을 수행한다.

주요 결과는 다음과 같다. 첫째, 토픽‑중립 프롬프트임에도 불구하고 123개의 의미상 풍부한 카테고리가 형성돼 전체 데이터의 98.6%를 차지한다. 이는 LLM이 내부 사전학습에서 습득한 지식 구조가 프롬프트 없이도 폭넓게 발현된다는 증거다. 둘째, 모델 패밀리별 토픽 선호도가 뚜렷하게 구분된다. GPT‑OSS는 프로그래밍(27.1%)과 수학(24.6%)에 집중해 전체 절반 이상을 차지하고, 기술 깊이 면에서도 동적 프로그래밍·고급 알고리즘을 생성한다. Llama는 문학(9.1%), 심리학(7.6%), 철학(6.7%) 등 인문·예술 영역에 비중이 높으며, 퇴화 텍스트로 개인 SNS URL을 반복적으로 삽입한다. DeepSeek은 종교 구절을, Qwen은 다중선택형 문제와 감정 표현(“let me know”, “thank”)을, 때로는 중국어 텍스트를 생성한다.

세부 서브카테고리 분석(그림 3)에서는 각 모델이 같은 상위 카테고리 내에서도 서로 다른 세부 분야에 특화됨을 확인한다. 예를 들어, 프로그래밍 카테고리에서 GPT‑OSS는 Python·C++·알고리즘 설계에 집중하고, DeepSeek은 JavaScript·웹 개발에 비중을 둔다. 수학 카테고리에서도 GPT‑OSS는 위상수학·조합론을, Llama는 확률·통계에 더 많이 언급한다.

또한, 퇴화 텍스트 패턴은 모델별 “시그니처”처럼 작용한다. GPT‑OSS는 코드 블록 구분자(‘\n\n’’’’)를, Qwen은 감정적 인사와 중국어 문장을, Llama는 개인 SNS 링크를, DeepSeek은 성경 구절 인용을 반복한다. 이러한 현상은 모델이 학습 데이터에서 과도하게 학습한 템플릿이나 반복 구조가 최소 프롬프트 상황에서 그대로 발현된 것으로 해석된다.

안전·신뢰성 관점에서, 이러한 “자연스러운” 토픽 편향과 퇴화 현상은 모델 배포 전 위험 평가에 중요한 인사이트를 제공한다. 특히, 특정 도메인(예: 프로그래밍)에서 과도한 전문성은 오용 가능성을 높이고, 종교·정치·개인 정보(예: SNS URL)와 같은 민감한 내용이 무의식적으로 생성될 위험을 시사한다.

마지막으로, 데이터와 코드가 공개됨으로써 후속 연구자들이 동일 파이프라인을 재현하거나, 프롬프트 설계, 퇴화 텍스트 탐지, 토픽 편향 완화 방법을 탐구할 수 있는 기반을 마련한다.

제약 없는 프롬프트가 드러낸 LLM의 숨은 성향

초록

상세 분석

댓글 및 학술 토론

의견 남기기