一个容易被忽略的开源大模型强者MistralLarge2附体验地址
说起AI领域的开源模型,大家脑海里首先想到的是哪个?估计99%的小伙伴都会回答:Meta的 Llama 系列模型。毕竟,它太火了,而且确实有实力,尤其是大约一个月前发布的Llama 3.1,其中的 Llama 3.1 405B 模型在多个基准测试中超越了 GPT-4o 和 Claude 3.5 Sonnet 。希望了解更多的小伙伴可以翻看我之前的这篇文章:《 史上最强开源模型Llama 3.1,媲美GPT-4o和Claude 3.5 Sonnet! 》。
除了Meta的Llama外,还有一个实力强劲的开源AI模型,那就是Mistral AI的 Mistral Large 系列模型。几乎是和Meta同一时间,Mistral AI也是在上个月发布了Mistral Large第一代的升级版本: Mistral Large 2 。

关于Mistral Large 2
上下文窗口 : Mistral Large 2 具有128k的上下文窗口,能够处理长文本输入。
多语言支持 :支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的多种语言,涵盖全球主要语言。
编程语言支持 :支持80多种编程语言,包括Python、Java、C、C++、JavaScript和Bash,适用于多种编程任务。
参数规模 :拥有1230亿参数,使其在单节点上运行时,能够提供高吞吐量的推理能力,适合复杂的计算任务。
许可类型 :在Mistral研究许可证下发布,允许用于研究和非商业用途。对于需要自我部署的商业用途,需获取Mistral商业许可证。
性能表现 :在MMLU(多任务语言理解)基准测试中,预训练版本的准确率达到了 84.0 %。
代码和推理能力
代码生成和数学性能
作为一个1230亿参数的模型, Mistral Large 2 的代码生成和数学性能与4050亿参数的 Llama 3.1 405B 相近甚至更高,体现出“小而美”的高性能/尺寸比。

四个代码生成基准测试
看了 Mistral Large 2 在以下四个代码生成基准测试中的表现,只能用“ 稳定 ”来形容。和最顶级的私有模型如 GPT-4o 和 Claude 3.5 Sonnet 相比有差距,但表现和 Llama 3.1 405B 相近,甚至在Human Eval和Human Eval Plus测试中表现更好。

MultiPL-E基准测试
在MultiPL-E基准测试中, Mistral Large 2 在大多数编程语言上的表现优异,已经达到了“尖子生”的水平,平均分为76.9%,仅次于 GPT-4o 。

两个数学基准测试
以下是 Mistral Large 2 在GSM8K的8-shot和Math Instruct的0-shot(无链式推理,CoT)基准测试中的性能表现。综合来看,表现属于第一梯队,和 GPT-4o 和 Claude 3.5 Sonnet 表现有差距,但差距也并没有太大,说明其在数学推理和生成任务中的能力。

如何使用Mistral Large 2
le Chat
个人用户推荐。
le Chat地址 :https://chat.mistral.ai/chat
la Plateforme
模型选择 mistral-large-2407 。
la Plateforme地址 :https://console.mistral.ai/
云服务提供商




共有 0 条评论