SuperCLUE 的官方网站一个专注于中文大语言模型(LLM)综合性评测的权威基准平台。
核心定位与作用
SuperCLUE(Super Chinese Language Understanding Evaluation)是 CLUE 中文语言理解测评基准在通用大模型时代的重大升级版本,被公认为目前最全面、最具权威性的中文大模型评测榜单之一。
它主要解决的问题:
- 在中文环境下,国内外大模型的真实能力差距有多大?
- 不同模型在各类任务上的强弱表现如何?
- 与人类水平相比,中文大模型已经达到什么程度?
主要评测内容(截至最新更新)
平台通常从多个维度全面评估模型,覆盖大约 70+ 项能力,主要包括以下四大象限:
-
语言理解与生成
- 语义理解、文本生成、阅读理解、写作能力等
-
知识与推理
- 常识推理、逻辑推理、数学能力、知识问答
-
专业技能
- 法律、金融、医学、编程、科学等垂直领域能力
-
中文特有能力 + 安全 & Agent
- 中文理解特质(如成语、歇后语、古文、对联等)
- AI Agent 能力、多轮对话、安全性、对抗鲁棒性等
评测方式结合了:
- 客观题(选择/填空)
- 开放式主观题(人工/模型评判)
- 真实用户盲测对战(琅琊榜)
- 多轮对话能力
目前主要功能与查看内容
- 总榜 & 分榜:中文大模型综合排行榜、各细分能力榜单
- 国内外模型对比:同时收录国内外主流模型(如 GPT-4o、Claude、Gemini、文心一言、通义千问、DeepSeek、Kimi、豆包、GLM、Qwen、Yi、Moonshot 等)
- 历史榜单:可查看 2023、2024、2025 等年度报告与月度/季度更新
- 媒体生成榜:部分时期还会单独评测 AI 写作、图片生成、中文多模态等