GPT4omini可能没那么强但也绝对不弱

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

GPT-4o mini 模型于近日发布,这应该是OpenAI为数不多的在发布了一款新模型后,没有收到一边倒的赞美,而是有不少质疑的声音,其中包括对 GPT-4o 实时语音功能和 GPT-5 的期待和呼吁,也有对新模型 GPT-4o mini 能力的质疑。

比如下面这位网友就表示 GPT-4o mini 没有 Claude 3.5 Sonnet 好, Claude 3.5 Sonnet 能够在一分钟内创建出模拟太阳系的三维动画。

这其实是一个误区。 GPT-4o mini 模型推出的目的,本就不是为了和LLM排行榜的前几名模型竞争,它对标的是参数量更小、响应速度更快、成本更小的模型,比如谷歌的 Gemini Flash ,Anthropic的 Claude 3 Haiku ,以及之前的 GPT-3.5 Turbo 。拿 GPT-4o mini 和 Claude 3.5 Sonnet 直接对比,就好像让一个小学生和一个大学生来直接对比,这种比较本身是不公平的。

OpenAI官方并没有明确指出 GPT-4o mini 模型的参数量具体是多少,而只是说它是一个小模型(small model),但有一位网友指出他曾在一篇文章里看到, GPT-4o mini 的参数量比 Llama 8B 模型要更小。相较于 GPT-4 模型的1760万亿参数, GPT-4o mini 确实太mini了,而一个如此小的模型能在一系列基准测试中达到如此亮眼的成绩, GPT-4o mini 应该是第一个。

首先,让我们来详细看一下这几项针对AI模型表现的基准测试。

MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)MMLU旨在评估模型在各种领域的深度理解能力,测试其通用知识和推理能力。题目涵盖广泛,包括历史、科学、文学、医学等专业、学术和常识领域的问题。通过这些测试,模型需要展示其广泛的知识基础和深度理解能力,以解决复杂的跨领域问题。MMLU测试中, GPT-4o mini 的得分为82.0%,表现优异,远高于 Claude Haiku 的73.8%和 GPT-3.5 Turbo 的69.8%,显示出其在处理多领域知识和推理问题上的能力。一个参数量如此小的模型能得到这样的得分,是非常难得的。

GPQA(General Performance Question Answering,一般性能问答)GPQA评估模型在一般领域中回答问题的能力,测试其理解和推理能力。题目涉及科技、文化和日常生活等各方面,要求模型能够准确检索信息,综合多方数据,并提供精准的回答,展示模型的广泛知识面和信息处理能力。GPQA测试中, GPT-4o mini 的得分为40.2%,同样是远优于 GPT-3.5 Turbo 的30.8%,但相比较 GPT-4o 的53.6%还是有着不小的差距的,表明在一般信息检索和综合能力上还有提升空间。

DROP(Discrete Reasoning Over Paragraphs,段落离散推理)DROP测量模型在文本中的离散推理能力,包括数值推理、逻辑推理和信息处理。测试内容包括算术运算、事件排序和从文本中提取数据等任务,要求模型能够理解和操作文本信息进行复杂推理,解决需要综合多条信息的挑战。DROP测试中, GPT-4o mini 的得分为79.7%,略高于 Claude Haiku 和 Gemini Flash ,远优于 GPT-3.5 Turbo 的70.2%,证明其在数值和逻辑推理能力上的提高。

MGSM(Math and General Science Module,数学与通用科学模块)MGSM评估模型解决数学问题和理解通用科学概念的能力。题目涵盖代数、几何、物理和生物等科学领域,测试模型的科学推理和数学计算能力,要求模型能够解决实际数学问题并理解基本科学原理。MGSM测试中, GPT-4o mini 得分为87.0%,一骑绝尘,远远高于 Claude Haiku 的71.7%,以及 Gemini Flash 的75.5%,更不用提 GPT-3.5 Turbo 的56.3%,表明其在科学和数学推理方面的显著提高。

MATH(数学)MATH专门测量模型解决数学问题的能力,题目涉及代数、微积分、离散数学等复杂数学领域。测试模型在精确理解和应用数学概念方面的能力,要求模型处理高难度的数学推理和计算任务,展现其数学推理能力。MATH测试中, GPT-4o mini 的得分为70.2%,同样是远远高于其它3个同级别的小模型,显示其在数学问题上的显著加强。

HumanEvalHumanEval测试模型根据给定规范生成正确且功能性代码的能力。题目包括需要逻辑思维、算法设计和正确语法的编程问题,要求模型能够编写符合规范且有效运行的代码,展示其在编程和算法解决方面的能力。HumanEval测试中, GPT-4o mini 得分87.2%,高于 Claude Haiku 的75.9%,以及 Gemini Flash 的71.5%,表现出在编程和算法设计上的良好能力,相比目前最强模型 GPT-4o 的90.2%也只是差了一点点。

MMMU(Multilingual and Multitask Model Understanding,多语言多任务模型理解)MMMU评估模型在多语言和多任务类型中的处理能力。题目包括多语言问答、翻译任务和跨语言理解,测试模型在处理不同语言的复杂任务中的表现。要求模型能够在多语言环境中准确理解和执行任务,展示其多语言处理和任务转换能力。MMMU测试中, GPT-4o mini 得分为59.4%,同样高于 Claude Haiku 的50.2%,以及 Gemini Flash 的56.1%,显示在多语言处理方面的提升。有一说一,GPT系列模型对于中文的支持程度在国外模型中算是表现很不错的了。

MathVistaMathVista评估模型的高级数学推理能力,包含需要高阶思维和问题解决策略的复杂数学问题。测试模型在处理高级数学问题时的推理能力和问题解决策略,要求模型应对复杂的数学挑战并提供准确解决方案,展现其在高级数学领域的推理和解决问题的能力。MathVista测试中, GPT-4o mini 得分为56.7%,高于 Claude Haiku 的46.4%,但低于 Gemini Flash 的58.4%,表明其在高级数学推理方面的表现尚可,毕竟只是一个小模型。

结语

GPT-4o mini 模型的推出其实是拉高了几近于免费的AI模型的下限,ChatGPT免费用户可以无限使用这个“智商”超过了 GPT-4 Turbo 01-25 的新模型,而开发者和企业用户则能够以极低的成本来使用 GPT-4o mini 来开发构建自己的AI系统。

GPT-4o mini可能没那么强,但也绝对不弱!

精选推荐

使用GPT-4o模型的5种方法,总有一种适合你!

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END
分享
二维码
< <上一篇
下一篇>>