超越Claude35SonnetGPT4omini夺得第二名

shadowrocket • 2026年1月19日 am8:02 • Shadowrocket官网

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

LMSYS聊天机器人竞技场排行榜终于更新了！而于7月18日发布的 GPT-4o mini 模型以乘坐火箭的速度超越 Claude 3.5 Sonnet 迅速冲到了榜单的第二名！

完整榜单表格

排名 (UB)

模型

竞技场评分

95% 置信区间

投票数

组织

许可证

知识截止日期

🥇

GPT-4o-2024-05-13

1287

+3/-3

64700

OpenAI

Proprietary

2023/10

🥇

GPT-4o-mini-2024-07-18

1280

+8/-9

4449

OpenAI

Proprietary

2023/10

🥈

Claude 3.5 Sonnet

1272

+4/-3

34591

Anthropic

Proprietary

2024/4

🥉

Gemini-Advanced-0514

1267

+3/-3

48001

Google

Proprietary

Online

4️⃣

Gemini-1.5-Pro-APT-0514

1261

+4/-2

57448

Google

Proprietary

2023/11

5️⃣

Gemini-1.5-Pro-APT-0409-Preview

1257

+3/-3

55681

Google

Proprietary

2023/11

5️⃣

GPT-4-Turbo-2024-04-09

1257

+2/-3

76597

OpenAI

Proprietary

2023/12

8️⃣

GPT-4-1106-preview

1251

+2/-2

88475

OpenAI

Proprietary

2023/4

8️⃣

Claude 3 Opus

1248

+2/-2

147947

Anthropic

Proprietary

2023/8

9️⃣

GPT-4-0125-preview

1245

+3/-3

81807

OpenAI

Proprietary

2023/12

🔟

Yi-Large-preview

1240

+3/-3

50499

01 AI

Proprietary

Unknown

🎉 注意事项：

置信区间 (95% CI)：表示有95%的信心模型的真实评分在给定范围内。

投票数：表示模型获得的用户投票数，反映了模型的使用和反馈情况。

知识截止日期：表示模型训练数据的最新更新时间。

榜单解读

LMSYS排行榜最新数据更新截至2024年7月22日，目前已收录117个LLM模型，共计投票数高达151.9万次。关于LMSYS排行榜是什么的详细介绍，可以看我这篇文章：《 Claude 3 Opus超越GPT-4登顶LMSYS Leaderboard排行榜！通义大模型榜上有名！》。

根据最新数据显示， GPT-4o mini 模型（即截图中的 GPT-4o-mini-2024-07-18 ）竞技场综合得分为1280分，目前排名第二。排名第一的为于5月13日发布的它大哥 GPT-4o ，综合得分为1287分。而令人意外的是， Claude 3.5 Sonnet 也在 GPT-4o mini 模型之下，得分1272分，屈居第三名。

但值得指出的是，由于 GPT-4o mini 模型还是一个非常新的模型，所以总得票数和其他模型相比还比较小，仅有4449票，而 GPT-4o 和 Claude 3.5 Sonnet 模型则分别获得了64700和34591票。这也间接预示着 GPT-4o mini 的分数还没有最终稳定下来，后面可能会继续波动。

这一点在 95% CI 这项指标里也有着清晰的体现。在LMSYS排行榜中， 95% CI 代表“95%置信区间”（95% Confidence Interval）。置信区间是统计学中的一个术语，表示一个范围，可以有95%的信心认为模型的真实评分落在这个范围内。例如， GPT-4o mini 模型的评分是1280，且95%置信区间为+8/-9，这意味着我们有95%的信心认为该模型的真实评分在1271到1288之间。置信区间越小，表示我们对该评分的确定性越高。对于大模型排行榜来说，置信区间的设定有助于更准确地评估模型的性能和稳定性。通过使用置信区间，排行榜能够更好地反映模型的真实能力，而不是仅仅依赖单一的评分。这在比较性能相近的模型时尤为重要，因为它考虑了评分的不确定性和可能的波动范围。

另外，由于LMSYS榜单是面向全球用户，而其中英语用户居多，所以对于我们中文用户来说，真实使用体验可能和榜单排名有一定出入。比如Claude系列模型一直以来在中文理解和生成方面的表现就很优秀，所以即使它目前处于第三名，也不能就说它不如前两个GPT-4o系列模型。

GPT-4o mini 模型的厉害之处

小模型，高表现。这里的“小”指的是 GPT-4o mini 模型的参数量小。我在另一篇文章中提到过，OpenAI官方并没有明确指出 GPT-4o mini 模型的参数量具体是多少，而只是说它是一个小模型（small model），但有一位网友指出他曾在一篇文章里看到， GPT-4o mini 的参数量比 Llama 8B 模型要更小。如此的一个小模型能够夺得“第二名”的好成绩，这就属于是难上加难。

支持多模态输入。 GPT-4o mini 模型的定位本质上是 GPT-3.5 的升级和替代。 GPT-3.5 模型仅支持文本输入，而 GPT-4o mini 则增加了对图片（视觉模态）输入的支持，OpenAI官方表示未来还会增加对音频和视频输入和输出的支持。

低成本。 GPT-4o 和 Claude 3.5 Sonnet 为什么贵？其中很重要的一个原因就是参数量大，训练成本极高。相反，这一点就成为了 GPT-4o mini 的优势。 GPT-4o mini API的调用成本是 GPT-4o 的将近三十分之一！

模型

定价 (每百万输入tokens)

定价 (每百万输出tokens)

GPT-4o mini

$0.15

$0.60

GPT-4o

$5.00

$15.00

Claude 3.5 Sonnet

$3.00

$15.00

结语

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END

二维码

从月入3千到5万2025中国独立开发者收入分层真相与突破路径

< <上一篇

当科幻照进现实Figure02机器人震撼发布

下一篇>>

搜索内容

超越Claude35SonnetGPT4omini夺得第二名

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐