LiveBench

目前最难污染、最动态刷新、纯客观自动评分的顶级LLM硬核能力擂台榜

目前AI圈内最受关注、最难的大模型客观评测基准之一,专为解决传统基准容易被“污染”和评分不客观的问题而设计。

核心产品介绍

LiveBench 是一个持续更新、几乎无法被提前污染的LLM(大语言模型)评测基准,由Abacus.AI主导开发,联合Yann LeCun等学者参与,论文曾在 ICLR 2025 获得Spotlight。

它最核心的三大设计理念:

  1. 定期刷新题目(每月出新题 + 每6个月大版本完全重置),题目大量来自最近1年的信息源:

    • 最近的高中数学竞赛题(AMC12/AIME等)
    • 最新arXiv论文
    • 最近新闻文章
    • 最新IMDb电影剧情梗概
    • 新发布的数据集
  2. 全部使用客观、可验证的ground truth自动评分,完全不依赖LLM judge(避免了LLM裁判常见的偏见和不稳定)

  3. 难度非常高,目标是让最强模型整体得分落在**30%~70%**区间(早期版本),现在2026年初即使顶级模型也大多在70%~76%左右徘徊。

当前主要类别(截至2026年1月最新版本 LiveBench-2026-01-08)

目前有 7大类、22个子任务,覆盖面非常全面:

  • Reasoning(推理)
  • Coding(普通编码)
  • Agentic Coding(Agent式编程,更接近真实工程场景)
  • Mathematics(数学,包含最新竞赛题+新加的博弈论+积分综合题)
  • Data Analysis(数据分析)
  • Language(语言理解)
  • IF(Instruction Following 指令遵循)