重磅Anthropic发布Claude35Haiku升级版Sonnet和计算机自动化操作功

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

今天,AI领域“最靓的仔”注定属于 Claude 。

北美时间10月22日, Anthropic ,开发出 Claude AI 的那家AI初创公司,发布了 两个新模型 : Claude 3.5 Haiku 和升级版的 Claude 3.5 Sonnet ,以及一个令人眼前一亮的 新功能 : 计算机操作(Computer Use) 。

相信 Claude 模型/工具是很多小伙伴的心头好,某些方面甚至超过了OpenAI的 GPT-4o 。今天发布的新版本 Claude 3.5 Sonnet 是6月20日第一版本 Claude 3.5 Sonnet 的升级版,据Anthropic官方表示,新版本的Sonnet模型在多个方面都有提升,尤其是在 代码编写 ( Coding )方面。而编程一直以来都是 Claude 3.5 Sonnet 的传统强项,这下更强了。

另一个全新的模型 Claude 3.5 Haiku 在AI基准评测中表现出色,几乎与Claude 3.5前一代中的最强模型 Claude 3 Opus 相当,速度和成本与上一代Haiku基本一致。总结来说,就是 更快,更强,更便宜 。

伴随两个新模型同时发布的还有一个具有突破性意义的新功能: 计算机操作(Computer Use) ,目前该功能已进入beta公测阶段。通过最新版的 Claude 3.5 Sonnet API,开发者可以指挥Claude像人类一样操作计算机——比如 浏览屏幕、移动光标、点击按钮,甚至输入文字 。Anthropic表示,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等企业已开始探索这一全新可能性,执行那些需要几十甚至上百步才能完成的复杂任务。例如,Replit正在尝试使用 Claude 3.5 Sonnet 的计算机操作和UI导航能力,为其Replit Agent产品开发一个能够在应用构建过程中进行评估的功能。

目前,升级版 Claude 3.5 Sonnet 已对所有用户开放。开发者可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI,体验 计算机操作 功能。而 Claude 3.5 Haiku 则将在本月晚些时候发布。

Claude 3.5 Sonnet/Haiku基准测试解读

这下,升级后的 Claude 3.5 Sonnet 成了名副其实的最强大模型(不考虑推理模型o1的情况下)。

推理与知识能力 :

在研究生级别推理任务(GPQA)中,新版 Claude 3.5 Sonnet 表现最好,达到65.0%,优于其他模型且远高于 GPT-4o 。

在本科级别知识任务(MMLU Pro)中, Claude 3.5 Sonnet 依旧领先,得分为78.0%,高于 Gemini 1.5 Pro 。

代码编写与工具使用 :

在代码编写任务(HumanEval)上, Claude 3.5 Sonnet 以93.7%再次拔得头筹。

在自主代码编写(SWE-bench Verified)和工具使用任务(TAU-bench)上,新版本 Claude 3.5 Sonnet 相较上一代模型有着明显的提升。

数学问题解决 :

Claude 3.5 Sonnet 在数学问题解决任务(MATH)中得分为78.3%,不错,但低于 Gemini 1.5 Pro 的86.5%。

在高中数学竞赛任务(AIME 2024)中,得分为16.0%。

视觉问答和自主工具使用 :

在视觉问答任务(MMMU)中, Claude 3.5 Sonnet 得分为70.4%,稍高于 GPT-4o 。

Claude 3.5 Sonnet

升级后的 Claude 3.5 Sonnet 在多项AI基准测试中有着显著提升,尤其是在自主代码编写和工具使用任务上。代码编写方面, Claude 3.5 Sonnet 在SWE-bench Verified基准测试中的表现从33.4%提升至49.0%, 超越了所有公开可用的模型,包括像 OpenAI o1-preview 这样的推理模型 。在工具使用任务TAU-bench中, Claude 3.5 Sonnet 在零售领域的表现从62.6%提升至69.2%,在更具挑战性的航空领域,其表现也从36.0%提高到了46.0%。

Anthropic早期参与测试的客户反馈与上面的基准测试结果非常吻合——Claude在代码编写方面越来越强了。GitLab在其DevSecOps任务中测试了该模型,结果显示其推理能力提升了10%,且没有增加任何延迟。Cognition使用该模型进行AI自主评估后,在代码编写、规划和问题解决方面取得了显著提升。The Browser Company在自动化网页工作流时,也表示新版 Claude 3.5 Sonnet 超越了他们测试过的所有其他模型。

Claude 3.5 Haiku

Haiku系列自Claude 3起就是 速度最快,成本最低 的模型。今天发布的 Claude 3.5 Haiku 是Claude系列模型中响应速度最快的模型,延续了 Claude 3 Haiku 的成本和速度优势的前提下,“智商”也有所提升。在多个AI基准测试中, Claude 3.5 Haiku 的表现甚至超越了上一代最强模型 Claude 3 Opus 。尤其是 代码编写 任务, Claude 3.5 Haiku 在SWE-bench Verified基准测试中得分40.6%,超过了老版本的 Claude 3.5 Sonnet 和 GPT-4o 。

Claude 3.5 Haiku 暂时还没有正式发布,Anthropic表示将在本月晚些时候通过Claude API、Amazon Bedrock和Google Cloud的Vertex AI推出,早期将仅支持文本输入,随后会增加图像输入功能。

计算机操作(Computer Use)

计算机操作(Computer Use) ,这无疑是一个重磅炸弹。简单来说,就是让Claude像我们人类一样操作计算机。现在的Claude已经能够理解指令,有了计算机操作功能,Claude还能实际动手“操作”电脑,包括 看屏幕、移动鼠标、点击按钮、输入文字 ,完成很多以前需要人手动去做的重复任务。

举个例子,假设你希望Claude帮忙填写一张表格,它可以自己去打开浏览器、找到合适的网页,然后从你的本地文件里获取数据,填入表格并提交。这就像你教会了Claude使用电脑,它能代替你执行一些重复性、繁琐的任务。

不同于为Claude设计专门的工具以完成特定任务,Anthropic设计该功能的初衷是教会Claude通用的计算机操作技能,使其能够使用为人类设计的各种标准工具和软件程序。开发者可以利用这一初步的能力,自动化处理重复性流程、构建和测试软件,或进行开放式的研究任务。

为了实现这些通用技能,Anthropic研发团队开发了一个API,使Claude能够 感知并与计算机界面进行交互 。开发者可以将该API集成到软件系统中,让Claude将指令(如“使用我的计算机和网络数据来填写这张表格”)转化为具体的计算机操作(例如,检查电子表格,移动光标打开网络浏览器,导航至相关网页,利用网页上的数据填表等)。在专门评估AI模型使用计算机能力的OSWorld平台, Claude 3.5 Sonnet 在仅使用截图的类别中得分 14.9 %,远高于下一名的7.8%。当允许更多操作步骤时,Claude的得分提升至 22.0 %。

但值得注意的是,Claude目前的计算机操作能力还处于早期阶段。Anthropic官方表示,一些人类可以轻松完成的动作——如滚动、拖拽、缩放——对于Claude来说仍是挑战。

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END
分享
二维码
< <上一篇
下一篇>>