目前AI圈内最受关注、最难的大模型客观评测基准之一,专为解决传统基准容易被“污染”和评分不客观的问题而设计。
核心产品介绍
LiveBench 是一个持续更新、几乎无法被提前污染的LLM(大语言模型)评测基准,由Abacus.AI主导开发,联合Yann LeCun等学者参与,论文曾在 ICLR 2025 获得Spotlight。
它最核心的三大设计理念:
-
定期刷新题目(每月出新题 + 每6个月大版本完全重置),题目大量来自最近1年的信息源:
- 最近的高中数学竞赛题(AMC12/AIME等)
- 最新arXiv论文
- 最近新闻文章
- 最新IMDb电影剧情梗概
- 新发布的数据集
-
全部使用客观、可验证的ground truth自动评分,完全不依赖LLM judge(避免了LLM裁判常见的偏见和不稳定)
-
难度非常高,目标是让最强模型整体得分落在**30%~70%**区间(早期版本),现在2026年初即使顶级模型也大多在70%~76%左右徘徊。
当前主要类别(截至2026年1月最新版本 LiveBench-2026-01-08)
目前有 7大类、22个子任务,覆盖面非常全面:
- Reasoning(推理)
- Coding(普通编码)
- Agentic Coding(Agent式编程,更接近真实工程场景)
- Mathematics(数学,包含最新竞赛题+新加的博弈论+积分综合题)
- Data Analysis(数据分析)
- Language(语言理解)
- IF(Instruction Following 指令遵循)