Big Code Models Leaderboard

最新、最有参考价值的代码模型排行榜

Hugging Face 上由 BigCode 项目 官方维护的一个代码大模型排行榜（Big Code Models Leaderboard）。

比较和排名各种开源代码生成模型（主要是专门用于编程/代码生成的大语言模型）的性能表现，同时也会关注模型的推理速度（throughput）。

它类似于 Open LLM Leaderboard，但专门聚焦在代码生成领域。

早期版本主要使用 bigcode-evaluation-harness 这个评估框架，采用比较标准的设置：

这个原始的 bigcode-models-leaderboard 在2023~2024年非常活跃，当时主要收录 StarCoder、CodeGen、WizardCoder、CodeGeeX、Replit-code 等经典模型。

但随着2024年后代码模型飞速发展（DeepSeek-Coder、Qwen2.5-Coder、CodeLlama、Gemma-Code、Llama-3.1/3.2-Code等），社区和BigCode项目本身的重心已经明显转移到更难、更新的基准上：

最主流的替代/升级版本目前是：

BigCodeBench（https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard 和 https://bigcode-bench.github.io/）
- 更难、更贴近真实编程任务
- 包含 Hard Set（约150道极难题目）和 Full Set（1140道）
- 目前几乎所有顶级代码模型（包括 Qwen2.5-Coder-32B、DeepSeek-Coder-V2、Llama-4系列代码版等）都在这里进行对比