llm-stats

AI全模态模型天梯榜+性价比对比工具箱，覆盖LLM、图像/视频生成、TTS/STT、Embedding等235+模型

非常实用且更新非常勤快的 AI模型大排行榜 & 对比网站，被很多人称为“AI选型工具箱”。

它主要帮你快速对比各种大模型（包括闭源和部分开源）的真实性能、价格、上下文长度等关键指标，覆盖面很广，不只限于聊天模型。

核心排行榜
- LLM综合排行（Chat Arena + Code Arena + GPQA + SWE-bench 等加权）
- 同时也有专门的 Open LLM排行榜（开源模型）
多模态模型排行（非常全的一点）
- 图像生成（Flux Pro、Midjourney、SD3.5、Imagen 4 等）
- 视频生成（Sora 2、Veo 3、Runway Gen-4、Luma等）
- 文生语音 TTS（ElevenLabs最新、Google Wave、Fish Speech等）
- 语音转文字 STT
- Embedding 模型排行
非常实用的几个维度对比
- 性能分（各种Arena、GPQA、LiveCodeBench、SWE-bench Verified等）
- 价格（$/百万tokens，输入/输出分开算）
- 上下文长度（128k～1M甚至2M的都有标注）
- 速度（部分有tokens/s参考）
其他好用功能
- 模型详细对比表格（可自行选模型横向比）
- 50+种benchmark的全表（可排序、筛选）
- 新模型发布快讯
- 按任务分的Arena（写代码、写小说、做网站、生成动画、SVG、3D等细分领域）