FACTS 리더보드 대규모 언어 모델 사실성 평가 종합 벤치마크

읽는 시간: 2 분
...

📝 원문 정보

  • Title: The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality
  • ArXiv ID: 2512.10791
  • 발행일: 2025-12-11
  • 저자: Aileen Cheng, Alon Jacovi, Amir Globerson, Ben Golan, Charles Kwong, Chris Alberti, Connie Tao, Eyal Ben-David, Gaurav Singh Tomar, Lukas Haas, Yonatan Bitton, Adam Bloniarz, Aijun Bai, Andrew Wang, Anfal Siddiqui, Arturo Bajuelos Castillo, Aviel Atias, Chang Liu, Corey Fry, Daniel Balle, Deepanway Ghosal, Doron Kukliansky, Dror Marcus, Elena Gribovskaya, Eran Ofek, Honglei Zhuang, Itay Laish, Jan Ackermann, Lily Wang, Meg Risdal, Megan Barnes, Michael Fink, Mohamed Amin, Moran Ambar, Natan Potikha, Nikita Gupta, Nitzan Katz, Noam Velan, Ofir Roval, Ori Ram, Polina Zablotskaia, Prathamesh Bang, Priyanka Agrawal, Rakesh Ghiya, Sanjay Ganapathy, Simon Baumgartner, Sofia Erell, Sushant Prakash, Thibault Sellam, Vikram Rao, Xuanhui Wang, Yaroslav Akulov, Yulong Yang, Zhen Yang, Zhixin Lai, Zhongru Wu, Anca Dragan, Avinatan Hassidim, Fernando Pereira, Slav Petrov, Srinivasan Venkatachary, Tulsee Doshi, Yossi Matias, Sasha Goldshtein, Dipanjan Das

📝 초록 (Abstract)

우리는 FACTS 리더보드와 연계된 온라인 벤치마크 모음집을 소개한다. 이 스위트는 이미지 기반 질문에 대한 응답, 내부 파라미터만을 활용한 폐쇄형 사실 질문, 검색 API를 이용한 정보 탐색 상황, 그리고 제공된 문서에 기반한 장문 응답 네 가지 하위 리더보드에서 모델의 사실성 정확도를 종합적으로 평가한다. 각 하위 리더보드는 자동화된 판정 모델을 사용해 응답을 점수화하며, 최종 점수는 네 구성 요소의 평균으로 산출된다. FACTS 리더보드 스위트는 공개·비공개 데이터 분할을 모두 포함해 외부 참여를 허용하면서도 무결성을 유지한다. 자세한 내용은 https://www.kaggle.com/benchmar...

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키