Hugging Face 上由 BigCode 项目 官方维护的一个代码大模型排行榜(Big Code Models Leaderboard)。
这个 Leaderboard 的主要目的
比较和排名各种开源代码生成模型(主要是专门用于编程/代码生成的大语言模型)的性能表现,同时也会关注模型的推理速度(throughput)。
它类似于 Open LLM Leaderboard,但专门聚焦在代码生成领域。
主要评估内容(早期版本核心指标)
- HumanEval(Python 代码生成经典基准,Pass@1、Pass@10 等)
- MultiPL-E(多语言版本的 HumanEval,支持 JavaScript、Java、C++、Go、Rust、PHP 等多种编程语言)
- 模型推理吞吐量(tokens/s)和内存占用(部分版本会测)
早期版本主要使用 bigcode-evaluation-harness 这个评估框架,采用比较标准的设置:
- temperature=0.2
- top-p=0.95
- n_samples=50(或10)
- max_length_generation=512 等
目前状态(2025-2026 时间点)
这个原始的 bigcode-models-leaderboard 在2023~2024年非常活跃,当时主要收录 StarCoder、CodeGen、WizardCoder、CodeGeeX、Replit-code 等经典模型。
但随着2024年后代码模型飞速发展(DeepSeek-Coder、Qwen2.5-Coder、CodeLlama、Gemma-Code、Llama-3.1/3.2-Code等),社区和BigCode项目本身的重心已经明显转移到更难、更新的基准上:
最主流的替代/升级版本目前是:
- BigCodeBench(https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard 和 https://bigcode-bench.github.io/)
- 更难、更贴近真实编程任务
- 包含 Hard Set(约150道极难题目)和 Full Set(1140道)
- 目前几乎所有顶级代码模型(包括 Qwen2.5-Coder-32B、DeepSeek-Coder-V2、Llama-4系列代码版等)都在这里进行对比