超越Claude35SonnetGPT4omini夺得第二名

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

LMSYS聊天机器人竞技场排行榜终于更新了!而于7月18日发布的 GPT-4o mini 模型以乘坐火箭的速度超越 Claude 3.5 Sonnet 迅速冲到了榜单的第二名!

完整榜单表格

排名 (UB)

模型

竞技场评分

95% 置信区间

投票数

组织

许可证

知识截止日期

🥇

GPT-4o-2024-05-13

1287

+3/-3

64700

OpenAI

Proprietary

2023/10

🥇

GPT-4o-mini-2024-07-18

1280

+8/-9

4449

OpenAI

Proprietary

2023/10

🥈

Claude 3.5 Sonnet

1272

+4/-3

34591

Anthropic

Proprietary

2024/4

🥉

Gemini-Advanced-0514

1267

+3/-3

48001

Google

Proprietary

Online

4️⃣

Gemini-1.5-Pro-APT-0514

1261

+4/-2

57448

Google

Proprietary

2023/11

5️⃣

Gemini-1.5-Pro-APT-0409-Preview

1257

+3/-3

55681

Google

Proprietary

2023/11

5️⃣

GPT-4-Turbo-2024-04-09

1257

+2/-3

76597

OpenAI

Proprietary

2023/12

8️⃣

GPT-4-1106-preview

1251

+2/-2

88475

OpenAI

Proprietary

2023/4

8️⃣

Claude 3 Opus

1248

+2/-2

147947

Anthropic

Proprietary

2023/8

9️⃣

GPT-4-0125-preview

1245

+3/-3

81807

OpenAI

Proprietary

2023/12

🔟

Yi-Large-preview

1240

+3/-3

50499

01 AI

Proprietary

Unknown

🎉 注意事项 :

置信区间 (95% CI):表示有95%的信心模型的真实评分在给定范围内。

投票数 :表示模型获得的用户投票数,反映了模型的使用和反馈情况。

知识截止日期 :表示模型训练数据的最新更新时间。

榜单解读

LMSYS排行榜最新数据更新截至2024年7月22日,目前已收录117个LLM模型,共计投票数高达151.9万次。关于LMSYS排行榜是什么的详细介绍,可以看我这篇文章:《 Claude 3 Opus超越GPT-4登顶LMSYS Leaderboard排行榜!通义大模型榜上有名! 》。

根据最新数据显示, GPT-4o mini 模型(即截图中的 GPT-4o-mini-2024-07-18 )竞技场综合得分为1280分,目前排名第二。排名第一的为于5月13日发布的它大哥 GPT-4o ,综合得分为1287分。而令人意外的是, Claude 3.5 Sonnet 也在 GPT-4o mini 模型之下,得分1272分,屈居第三名。

但值得指出的是,由于 GPT-4o mini 模型还是一个非常新的模型,所以总得票数和其他模型相比还比较小,仅有4449票,而 GPT-4o 和 Claude 3.5 Sonnet 模型则分别获得了64700和34591票。这也间接预示着 GPT-4o mini 的分数还没有最终稳定下来,后面可能会继续波动。

这一点在 95% CI 这项指标里也有着清晰的体现。在LMSYS排行榜中, 95% CI 代表“95%置信区间”(95% Confidence Interval)。 置信区间 是统计学中的一个术语,表示一个范围,可以有95%的信心认为模型的真实评分落在这个范围内。例如, GPT-4o mini 模型的评分是1280,且95%置信区间为+8/-9,这意味着我们有95%的信心认为该模型的真实评分在1271到1288之间。置信区间越小,表示我们对该评分的确定性越高。对于大模型排行榜来说,置信区间的设定有助于更准确地评估模型的性能和稳定性。通过使用置信区间,排行榜能够更好地反映模型的真实能力,而不是仅仅依赖单一的评分。这在比较性能相近的模型时尤为重要,因为它考虑了评分的不确定性和可能的波动范围。

另外,由于LMSYS榜单是面向全球用户,而其中英语用户居多,所以对于我们中文用户来说,真实使用体验可能和榜单排名有一定出入。比如Claude系列模型一直以来在中文理解和生成方面的表现就很优秀,所以即使它目前处于第三名,也不能就说它不如前两个GPT-4o系列模型。

GPT-4o mini 模型的厉害之处

小模型,高表现 。这里的“小”指的是 GPT-4o mini 模型的参数量小。我在另一篇文章中提到过,OpenAI官方并没有明确指出 GPT-4o mini 模型的参数量具体是多少,而只是说它是一个小模型(small model),但有一位网友指出他曾在一篇文章里看到, GPT-4o mini 的参数量比 Llama 8B 模型要更小。如此的一个小模型能够夺得“第二名”的好成绩,这就属于是难上加难。

支持多模态输入 。 GPT-4o mini 模型的定位本质上是 GPT-3.5 的升级和替代。 GPT-3.5 模型仅支持文本输入,而 GPT-4o mini 则增加了对图片(视觉模态)输入的支持,OpenAI官方表示未来还会增加对音频和视频输入和输出的支持。

低成本 。 GPT-4o 和 Claude 3.5 Sonnet 为什么贵?其中很重要的一个原因就是参数量大, 训练成本极高。相反,这一点就成为了 GPT-4o mini 的优势。 GPT-4o mini API的调用成本是 GPT-4o 的将近三十分之一!

模型

定价 (每百万输入tokens)

定价 (每百万输出tokens)

GPT-4o mini

$0.15

$0.60

GPT-4o

$5.00

$15.00

Claude 3.5 Sonnet

$3.00

$15.00

结语

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END
分享
二维码
< <上一篇
下一篇>>