↓Skip to main content

🏢 Alibaba Group

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

2 January 2025·1888 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Alibaba Group

CODEELO 벤치마크: 인간 수준의 Elo 등급으로 LLM의 경쟁적 코드 생성 능력 평가