非常实用且更新非常勤快的 AI模型大排行榜 & 对比网站,被很多人称为“AI选型工具箱”。
它主要帮你快速对比各种大模型(包括闭源和部分开源)的真实性能、价格、上下文长度等关键指标,覆盖面很广,不只限于聊天模型。
目前主要包含哪些内容(2026年1月9日数据)
-
核心排行榜
- LLM综合排行(Chat Arena + Code Arena + GPQA + SWE-bench 等加权)
- 同时也有专门的 Open LLM排行榜(开源模型)
-
多模态模型排行(非常全的一点)
- 图像生成(Flux Pro、Midjourney、SD3.5、Imagen 4 等)
- 视频生成(Sora 2、Veo 3、Runway Gen-4、Luma等)
- 文生语音 TTS(ElevenLabs最新、Google Wave、Fish Speech等)
- 语音转文字 STT
- Embedding 模型排行
-
非常实用的几个维度对比
- 性能分(各种Arena、GPQA、LiveCodeBench、SWE-bench Verified等)
- 价格($/百万tokens,输入/输出分开算)
- 上下文长度(128k~1M甚至2M的都有标注)
- 速度(部分有tokens/s参考)
-
其他好用功能
- 模型详细对比表格(可自行选模型横向比)
- 50+种benchmark的全表(可排序、筛选)
- 新模型发布快讯
- 按任务分的Arena(写代码、写小说、做网站、生成动画、SVG、3D等细分领域)