LLM을 활용한 선택모델링: 프롬프트 전략과 모델 성능 비교

LLM을 활용한 선택모델링: 프롬프트 전략과 모델 성능 비교
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 대형 언어 모델(LLM)이 다항 로짓(MNL) 모델의 변수 선택·유틸리티 사양 제시 및 추정 지원에 얼마나 유용한지를 체계적으로 평가한다. 7개 LLM(ChatGPT, Claude, DeepSeek, Gemini, Gemma, Llama, Mistral)의 12가지 버전을 ‘제안만’과 ‘제안·추정’ 두 목표, ‘Zero‑Shot’과 ‘Chain‑of‑Thought’ 두 프롬프트, ‘전체 데이터’와 ‘데이터 사전’ 두 정보 제공 방식으로 조합한 5가지 실험 설정에서 테스트하였다. 결과는 폐쇄형 모델(GPT·Claude·Gemini)이 구조화된 CoT 프롬프트와 데이터 사전만 제공될 때 가장 일관된, 행동학적으로 타당한 사양을 생성했으며, 오픈‑웨이트 모델(Llama·Gemma)은 전반적으로 낮은 품질을 보였다. 특히 GPT‑3(Agentic 모드)는 자체 코드를 실행해 제시한 사양을 실제로 추정하는 유일한 모델이었다.

상세 분석

이 논문은 선택모델링 분야에 LLM을 적용하려는 최초의 시도 중 하나로, 실험 설계가 매우 체계적이다. 먼저 모델 선택에서 최신 상용 모델과 오픈소스 모델을 균형 있게 포함했으며, 각 모델을 동일한 프롬프트와 데이터 조건에 노출시켜 비교 가능성을 확보했다. 프롬프트 전략을 Zero‑Shot과 Chain‑of‑Thought(COT) 두 가지로 제한한 점은 ‘out‑of‑the‑box’ 사용성을 강조한 의도와 일치한다. COT는 단계별 사고 과정을 강제함으로써 LLM이 복잡한 유틸리티 함수 구조를 논리적으로 전개하도록 돕는다. 실험 결과, COT를 사용한 경우 특히 폐쇄형 모델이 변수 선택, 비선형 변환, 상호작용 항 도출에서 높은 정확도를 보였으며, 이는 LLM이 인간 전문가와 유사한 추론 과정을 수행할 수 있음을 시사한다. 반면 오픈‑웨이트 모델(Llama, Gemma)은 토큰 제한이나 사전 학습 데이터의 도메인 편향 때문에 변수 의미를 오해하거나 불필요한 복잡성을 도입하는 경향을 보였다. 흥미롭게도 데이터 사전만 제공했을 때 일부 모델의 성능이 향상된 점은, 원시 데이터에 노출될 경우 LLM이 과도한 패턴 매칭에 빠져 비논리적 사양을 생성할 위험이 있음을 암시한다. 가장 주목할 만한 발견은 GPT‑3가 Agentic 설정에서 자체 코드를 실행해 제안한 MNL 모델을 실제로 추정했다는 점이다. 이는 LLM이 단순 텍스트 생성기를 넘어, 코드 실행 환경과 연동해 전 과정(사양 제안 → 코드 생성 → 추정)까지 자동화할 수 있음을 보여준다. 그러나 현재는 모델별로 이러한 기능이 제한적이며, 코드 실행 오류, 추정 수렴 실패 등 실용적 한계도 존재한다. 전반적으로 논문은 LLM이 선택모델링 초기 단계(가설 설정·사양 초안)에서 보조 도구로 활용될 가능성을 제시하면서도, 모델 선택, 프롬프트 설계, 데이터 제공 방식에 따라 성능 차이가 크다는 현실적인 교훈을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기