超越Claude35SonnetGPT4omini夺得第二名
LMSYS聊天机器人竞技场排行榜终于更新了!而于7月18日发布的 GPT-4o mini 模型以乘坐火箭的速度超越 Claude 3.5 Sonnet 迅速冲到了榜单的第二名!

完整榜单表格
排名 (UB)
模型
竞技场评分
95% 置信区间
投票数
组织
许可证
知识截止日期
🥇
GPT-4o-2024-05-13
1287
+3/-3
64700
OpenAI
Proprietary
2023/10
🥇
GPT-4o-mini-2024-07-18
1280
+8/-9
4449
OpenAI
Proprietary
2023/10
🥈
Claude 3.5 Sonnet
1272
+4/-3
34591
Anthropic
Proprietary
2024/4
🥉
Gemini-Advanced-0514
1267
+3/-3
48001
Proprietary
Online
4️⃣
Gemini-1.5-Pro-APT-0514
1261
+4/-2
57448
Proprietary
2023/11
5️⃣
Gemini-1.5-Pro-APT-0409-Preview
1257
+3/-3
55681
Proprietary
2023/11
5️⃣
GPT-4-Turbo-2024-04-09
1257
+2/-3
76597
OpenAI
Proprietary
2023/12
8️⃣
GPT-4-1106-preview
1251
+2/-2
88475
OpenAI
Proprietary
2023/4
8️⃣
Claude 3 Opus
1248
+2/-2
147947
Anthropic
Proprietary
2023/8
9️⃣
GPT-4-0125-preview
1245
+3/-3
81807
OpenAI
Proprietary
2023/12
🔟
Yi-Large-preview
1240
+3/-3
50499
01 AI
Proprietary
Unknown
🎉 注意事项 :
置信区间 (95% CI):表示有95%的信心模型的真实评分在给定范围内。
投票数 :表示模型获得的用户投票数,反映了模型的使用和反馈情况。
知识截止日期 :表示模型训练数据的最新更新时间。
榜单解读
LMSYS排行榜最新数据更新截至2024年7月22日,目前已收录117个LLM模型,共计投票数高达151.9万次。关于LMSYS排行榜是什么的详细介绍,可以看我这篇文章:《 Claude 3 Opus超越GPT-4登顶LMSYS Leaderboard排行榜!通义大模型榜上有名! 》。
根据最新数据显示, GPT-4o mini 模型(即截图中的 GPT-4o-mini-2024-07-18 )竞技场综合得分为1280分,目前排名第二。排名第一的为于5月13日发布的它大哥 GPT-4o ,综合得分为1287分。而令人意外的是, Claude 3.5 Sonnet 也在 GPT-4o mini 模型之下,得分1272分,屈居第三名。

但值得指出的是,由于 GPT-4o mini 模型还是一个非常新的模型,所以总得票数和其他模型相比还比较小,仅有4449票,而 GPT-4o 和 Claude 3.5 Sonnet 模型则分别获得了64700和34591票。这也间接预示着 GPT-4o mini 的分数还没有最终稳定下来,后面可能会继续波动。
这一点在 95% CI 这项指标里也有着清晰的体现。在LMSYS排行榜中, 95% CI 代表“95%置信区间”(95% Confidence Interval)。 置信区间 是统计学中的一个术语,表示一个范围,可以有95%的信心认为模型的真实评分落在这个范围内。例如, GPT-4o mini 模型的评分是1280,且95%置信区间为+8/-9,这意味着我们有95%的信心认为该模型的真实评分在1271到1288之间。置信区间越小,表示我们对该评分的确定性越高。对于大模型排行榜来说,置信区间的设定有助于更准确地评估模型的性能和稳定性。通过使用置信区间,排行榜能够更好地反映模型的真实能力,而不是仅仅依赖单一的评分。这在比较性能相近的模型时尤为重要,因为它考虑了评分的不确定性和可能的波动范围。
另外,由于LMSYS榜单是面向全球用户,而其中英语用户居多,所以对于我们中文用户来说,真实使用体验可能和榜单排名有一定出入。比如Claude系列模型一直以来在中文理解和生成方面的表现就很优秀,所以即使它目前处于第三名,也不能就说它不如前两个GPT-4o系列模型。
GPT-4o mini 模型的厉害之处
小模型,高表现 。这里的“小”指的是 GPT-4o mini 模型的参数量小。我在另一篇文章中提到过,OpenAI官方并没有明确指出 GPT-4o mini 模型的参数量具体是多少,而只是说它是一个小模型(small model),但有一位网友指出他曾在一篇文章里看到, GPT-4o mini 的参数量比 Llama 8B 模型要更小。如此的一个小模型能够夺得“第二名”的好成绩,这就属于是难上加难。
支持多模态输入 。 GPT-4o mini 模型的定位本质上是 GPT-3.5 的升级和替代。 GPT-3.5 模型仅支持文本输入,而 GPT-4o mini 则增加了对图片(视觉模态)输入的支持,OpenAI官方表示未来还会增加对音频和视频输入和输出的支持。
低成本 。 GPT-4o 和 Claude 3.5 Sonnet 为什么贵?其中很重要的一个原因就是参数量大, 训练成本极高。相反,这一点就成为了 GPT-4o mini 的优势。 GPT-4o mini API的调用成本是 GPT-4o 的将近三十分之一!
模型
定价 (每百万输入tokens)
定价 (每百万输出tokens)
GPT-4o mini
$0.15
$0.60
GPT-4o
$5.00
$15.00
Claude 3.5 Sonnet
$3.00
$15.00

结语



共有 0 条评论