Big Code Models Leaderboard

最新、最有参考价值的代码模型排行榜

Hugging Face 上由 BigCode 项目 官方维护的一个代码大模型排行榜(Big Code Models Leaderboard)。

这个 Leaderboard 的主要目的

比较和排名各种开源代码生成模型(主要是专门用于编程/代码生成的大语言模型)的性能表现,同时也会关注模型的推理速度(throughput)。

它类似于 Open LLM Leaderboard,但专门聚焦在代码生成领域。

主要评估内容(早期版本核心指标)

  • HumanEval(Python 代码生成经典基准,Pass@1、Pass@10 等)
  • MultiPL-E(多语言版本的 HumanEval,支持 JavaScript、Java、C++、Go、Rust、PHP 等多种编程语言)
  • 模型推理吞吐量(tokens/s)和内存占用(部分版本会测)

早期版本主要使用 bigcode-evaluation-harness 这个评估框架,采用比较标准的设置:

  • temperature=0.2
  • top-p=0.95
  • n_samples=50(或10)
  • max_length_generation=512 等

目前状态(2025-2026 时间点)

这个原始的 bigcode-models-leaderboard 在2023~2024年非常活跃,当时主要收录 StarCoder、CodeGen、WizardCoder、CodeGeeX、Replit-code 等经典模型。

但随着2024年后代码模型飞速发展(DeepSeek-Coder、Qwen2.5-Coder、CodeLlama、Gemma-Code、Llama-3.1/3.2-Code等),社区和BigCode项目本身的重心已经明显转移到更难、更新的基准上:

最主流的替代/升级版本目前是: