GPT4omini可能没那么强但也绝对不弱

shadowrocket • 2026年2月5日 am8:01 • Shadowrocket官网

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

GPT-4o mini 模型于近日发布，这应该是OpenAI为数不多的在发布了一款新模型后，没有收到一边倒的赞美，而是有不少质疑的声音，其中包括对 GPT-4o 实时语音功能和 GPT-5 的期待和呼吁，也有对新模型 GPT-4o mini 能力的质疑。

比如下面这位网友就表示 GPT-4o mini 没有 Claude 3.5 Sonnet 好， Claude 3.5 Sonnet 能够在一分钟内创建出模拟太阳系的三维动画。

这其实是一个误区。 GPT-4o mini 模型推出的目的，本就不是为了和LLM排行榜的前几名模型竞争，它对标的是参数量更小、响应速度更快、成本更小的模型，比如谷歌的 Gemini Flash ，Anthropic的 Claude 3 Haiku ，以及之前的 GPT-3.5 Turbo 。拿 GPT-4o mini 和 Claude 3.5 Sonnet 直接对比，就好像让一个小学生和一个大学生来直接对比，这种比较本身是不公平的。

OpenAI官方并没有明确指出 GPT-4o mini 模型的参数量具体是多少，而只是说它是一个小模型（small model），但有一位网友指出他曾在一篇文章里看到， GPT-4o mini 的参数量比 Llama 8B 模型要更小。相较于 GPT-4 模型的1760万亿参数， GPT-4o mini 确实太mini了，而一个如此小的模型能在一系列基准测试中达到如此亮眼的成绩， GPT-4o mini 应该是第一个。

首先，让我们来详细看一下这几项针对AI模型表现的基准测试。

MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）MMLU旨在评估模型在各种领域的深度理解能力，测试其通用知识和推理能力。题目涵盖广泛，包括历史、科学、文学、医学等专业、学术和常识领域的问题。通过这些测试，模型需要展示其广泛的知识基础和深度理解能力，以解决复杂的跨领域问题。MMLU测试中， GPT-4o mini 的得分为82.0%，表现优异，远高于 Claude Haiku 的73.8%和 GPT-3.5 Turbo 的69.8%，显示出其在处理多领域知识和推理问题上的能力。一个参数量如此小的模型能得到这样的得分，是非常难得的。

GPQA（General Performance Question Answering，一般性能问答）GPQA评估模型在一般领域中回答问题的能力，测试其理解和推理能力。题目涉及科技、文化和日常生活等各方面，要求模型能够准确检索信息，综合多方数据，并提供精准的回答，展示模型的广泛知识面和信息处理能力。GPQA测试中， GPT-4o mini 的得分为40.2%，同样是远优于 GPT-3.5 Turbo 的30.8%，但相比较 GPT-4o 的53.6%还是有着不小的差距的，表明在一般信息检索和综合能力上还有提升空间。

DROP（Discrete Reasoning Over Paragraphs，段落离散推理）DROP测量模型在文本中的离散推理能力，包括数值推理、逻辑推理和信息处理。测试内容包括算术运算、事件排序和从文本中提取数据等任务，要求模型能够理解和操作文本信息进行复杂推理，解决需要综合多条信息的挑战。DROP测试中， GPT-4o mini 的得分为79.7%，略高于 Claude Haiku 和 Gemini Flash ，远优于 GPT-3.5 Turbo 的70.2%，证明其在数值和逻辑推理能力上的提高。

MGSM（Math and General Science Module，数学与通用科学模块）MGSM评估模型解决数学问题和理解通用科学概念的能力。题目涵盖代数、几何、物理和生物等科学领域，测试模型的科学推理和数学计算能力，要求模型能够解决实际数学问题并理解基本科学原理。MGSM测试中， GPT-4o mini 得分为87.0%，一骑绝尘，远远高于 Claude Haiku 的71.7%，以及 Gemini Flash 的75.5%，更不用提 GPT-3.5 Turbo 的56.3%，表明其在科学和数学推理方面的显著提高。

MATH（数学）MATH专门测量模型解决数学问题的能力，题目涉及代数、微积分、离散数学等复杂数学领域。测试模型在精确理解和应用数学概念方面的能力，要求模型处理高难度的数学推理和计算任务，展现其数学推理能力。MATH测试中， GPT-4o mini 的得分为70.2%，同样是远远高于其它3个同级别的小模型，显示其在数学问题上的显著加强。

HumanEvalHumanEval测试模型根据给定规范生成正确且功能性代码的能力。题目包括需要逻辑思维、算法设计和正确语法的编程问题，要求模型能够编写符合规范且有效运行的代码，展示其在编程和算法解决方面的能力。HumanEval测试中， GPT-4o mini 得分87.2%，高于 Claude Haiku 的75.9%，以及 Gemini Flash 的71.5%，表现出在编程和算法设计上的良好能力，相比目前最强模型 GPT-4o 的90.2%也只是差了一点点。

MMMU（Multilingual and Multitask Model Understanding，多语言多任务模型理解）MMMU评估模型在多语言和多任务类型中的处理能力。题目包括多语言问答、翻译任务和跨语言理解，测试模型在处理不同语言的复杂任务中的表现。要求模型能够在多语言环境中准确理解和执行任务，展示其多语言处理和任务转换能力。MMMU测试中， GPT-4o mini 得分为59.4%，同样高于 Claude Haiku 的50.2%，以及 Gemini Flash 的56.1%，显示在多语言处理方面的提升。有一说一，GPT系列模型对于中文的支持程度在国外模型中算是表现很不错的了。

MathVistaMathVista评估模型的高级数学推理能力，包含需要高阶思维和问题解决策略的复杂数学问题。测试模型在处理高级数学问题时的推理能力和问题解决策略，要求模型应对复杂的数学挑战并提供准确解决方案，展现其在高级数学领域的推理和解决问题的能力。MathVista测试中， GPT-4o mini 得分为56.7%，高于 Claude Haiku 的46.4%，但低于 Gemini Flash 的58.4%，表明其在高级数学推理方面的表现尚可，毕竟只是一个小模型。

结语

GPT-4o mini 模型的推出其实是拉高了几近于免费的AI模型的下限，ChatGPT免费用户可以无限使用这个“智商”超过了 GPT-4 Turbo 01-25 的新模型，而开发者和企业用户则能够以极低的成本来使用 GPT-4o mini 来开发构建自己的AI系统。

GPT-4o mini可能没那么强，但也绝对不弱！

精选推荐

使用GPT-4o模型的5种方法，总有一种适合你！

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END

二维码

我一名28岁的攻城狮面对未来很是迷茫

< <上一篇

谷歌Gemini15Pro又双叒叕升级了附体验教程

下一篇>>

搜索内容

GPT4omini可能没那么强但也绝对不弱

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐