DEEPAMBIGQA: Ambiguous Multi-hop Questions for Benchmarking LLM Answer Completeness
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ํ์์ฑ ๋ฉํฐํ ์ถ๋ก ๊ณผ ๋ช ์นญยท์ ๋ชฉ ๋ชจํธ์ฑ ์ ์ค์ ๊ฒ์ยทQA ํ๊ฒฝ์์ ๋น๋ฒํ ๋ง์ฃผ์น๋ ๋ฌธ์ ์ด๋ค. ๊ธฐ์กด SQuAD, HotpotQA, AmbigQA ๋ฑ์ ๊ฐ๊ฐ ๋ฉํฐํ ํน์ ๋ชจํธ์ฑ์ ์ด์ ์ ๋ง์ถ์ง๋ง, ๋ ์์๋ฅผ ๋์์ ์๊ตฌํ๋ ์ง๋ฌธ์ ๊ฑฐ์ ์์๋ค. LLM+๊ฒ์ ํ์ดํ๋ผ์ธ(์: ReAct, SelfโRAG)์ โ๊ฒ์ โ ์ถ๋ก โ ๋ต๋ณโ ์ํ์ ํตํด ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ์ง๋ง, ๋ต๋ณ ์งํฉ์ ์์ ์ฑ(completeness) ์ ํ๊ฐํ ๋ฉํธ๋ฆญ์ด ๋ถ์กฑํ๋ค. 2. ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ โ DeepAmbigQAGen | ๋จ๊ณ | ํต์ฌ











