重磅Anthropic发布Claude35Haiku升级版Sonnet和计算机自动化操作功

shadowrocket • 2026年1月4日 am8:02 • Shadowrocket官网

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

今天，AI领域“最靓的仔”注定属于 Claude 。

北美时间10月22日， Anthropic ，开发出 Claude AI 的那家AI初创公司，发布了两个新模型： Claude 3.5 Haiku 和升级版的 Claude 3.5 Sonnet ，以及一个令人眼前一亮的新功能：计算机操作（Computer Use）。

相信 Claude 模型/工具是很多小伙伴的心头好，某些方面甚至超过了OpenAI的 GPT-4o 。今天发布的新版本 Claude 3.5 Sonnet 是6月20日第一版本 Claude 3.5 Sonnet 的升级版，据Anthropic官方表示，新版本的Sonnet模型在多个方面都有提升，尤其是在代码编写（ Coding ）方面。而编程一直以来都是 Claude 3.5 Sonnet 的传统强项，这下更强了。

另一个全新的模型 Claude 3.5 Haiku 在AI基准评测中表现出色，几乎与Claude 3.5前一代中的最强模型 Claude 3 Opus 相当，速度和成本与上一代Haiku基本一致。总结来说，就是更快，更强，更便宜。

伴随两个新模型同时发布的还有一个具有突破性意义的新功能：计算机操作（Computer Use），目前该功能已进入beta公测阶段。通过最新版的 Claude 3.5 Sonnet API，开发者可以指挥Claude像人类一样操作计算机——比如浏览屏幕、移动光标、点击按钮，甚至输入文字。Anthropic表示，Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等企业已开始探索这一全新可能性，执行那些需要几十甚至上百步才能完成的复杂任务。例如，Replit正在尝试使用 Claude 3.5 Sonnet 的计算机操作和UI导航能力，为其Replit Agent产品开发一个能够在应用构建过程中进行评估的功能。

目前，升级版 Claude 3.5 Sonnet 已对所有用户开放。开发者可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI，体验计算机操作功能。而 Claude 3.5 Haiku 则将在本月晚些时候发布。

Claude 3.5 Sonnet/Haiku基准测试解读

这下，升级后的 Claude 3.5 Sonnet 成了名副其实的最强大模型（不考虑推理模型o1的情况下）。

推理与知识能力：

在研究生级别推理任务（GPQA）中，新版 Claude 3.5 Sonnet 表现最好，达到65.0%，优于其他模型且远高于 GPT-4o 。

在本科级别知识任务（MMLU Pro）中， Claude 3.5 Sonnet 依旧领先，得分为78.0%，高于 Gemini 1.5 Pro 。

代码编写与工具使用：

在代码编写任务（HumanEval）上， Claude 3.5 Sonnet 以93.7%再次拔得头筹。

在自主代码编写（SWE-bench Verified）和工具使用任务（TAU-bench）上，新版本 Claude 3.5 Sonnet 相较上一代模型有着明显的提升。

数学问题解决：

Claude 3.5 Sonnet 在数学问题解决任务（MATH）中得分为78.3%，不错，但低于 Gemini 1.5 Pro 的86.5%。

在高中数学竞赛任务（AIME 2024）中，得分为16.0%。

视觉问答和自主工具使用：

在视觉问答任务（MMMU）中， Claude 3.5 Sonnet 得分为70.4%，稍高于 GPT-4o 。

Claude 3.5 Sonnet

升级后的 Claude 3.5 Sonnet 在多项AI基准测试中有着显著提升，尤其是在自主代码编写和工具使用任务上。代码编写方面， Claude 3.5 Sonnet 在SWE-bench Verified基准测试中的表现从33.4%提升至49.0%，超越了所有公开可用的模型，包括像 OpenAI o1-preview 这样的推理模型。在工具使用任务TAU-bench中， Claude 3.5 Sonnet 在零售领域的表现从62.6%提升至69.2%，在更具挑战性的航空领域，其表现也从36.0%提高到了46.0%。

Anthropic早期参与测试的客户反馈与上面的基准测试结果非常吻合——Claude在代码编写方面越来越强了。GitLab在其DevSecOps任务中测试了该模型，结果显示其推理能力提升了10%，且没有增加任何延迟。Cognition使用该模型进行AI自主评估后，在代码编写、规划和问题解决方面取得了显著提升。The Browser Company在自动化网页工作流时，也表示新版 Claude 3.5 Sonnet 超越了他们测试过的所有其他模型。

Claude 3.5 Haiku

Haiku系列自Claude 3起就是速度最快，成本最低的模型。今天发布的 Claude 3.5 Haiku 是Claude系列模型中响应速度最快的模型，延续了 Claude 3 Haiku 的成本和速度优势的前提下，“智商”也有所提升。在多个AI基准测试中， Claude 3.5 Haiku 的表现甚至超越了上一代最强模型 Claude 3 Opus 。尤其是代码编写任务， Claude 3.5 Haiku 在SWE-bench Verified基准测试中得分40.6%，超过了老版本的 Claude 3.5 Sonnet 和 GPT-4o 。

Claude 3.5 Haiku 暂时还没有正式发布，Anthropic表示将在本月晚些时候通过Claude API、Amazon Bedrock和Google Cloud的Vertex AI推出，早期将仅支持文本输入，随后会增加图像输入功能。

计算机操作（Computer Use）

计算机操作（Computer Use），这无疑是一个重磅炸弹。简单来说，就是让Claude像我们人类一样操作计算机。现在的Claude已经能够理解指令，有了计算机操作功能，Claude还能实际动手“操作”电脑，包括看屏幕、移动鼠标、点击按钮、输入文字，完成很多以前需要人手动去做的重复任务。

举个例子，假设你希望Claude帮忙填写一张表格，它可以自己去打开浏览器、找到合适的网页，然后从你的本地文件里获取数据，填入表格并提交。这就像你教会了Claude使用电脑，它能代替你执行一些重复性、繁琐的任务。

不同于为Claude设计专门的工具以完成特定任务，Anthropic设计该功能的初衷是教会Claude通用的计算机操作技能，使其能够使用为人类设计的各种标准工具和软件程序。开发者可以利用这一初步的能力，自动化处理重复性流程、构建和测试软件，或进行开放式的研究任务。

为了实现这些通用技能，Anthropic研发团队开发了一个API，使Claude能够感知并与计算机界面进行交互。开发者可以将该API集成到软件系统中，让Claude将指令（如“使用我的计算机和网络数据来填写这张表格”）转化为具体的计算机操作（例如，检查电子表格，移动光标打开网络浏览器，导航至相关网页，利用网页上的数据填表等）。在专门评估AI模型使用计算机能力的OSWorld平台， Claude 3.5 Sonnet 在仅使用截图的类别中得分 14.9 %，远高于下一名的7.8%。当允许更多操作步骤时，Claude的得分提升至 22.0 %。