重磅OpenAI正式发布博士水平的推理模型o1附详细说明

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

昨天刚在《 ChatGPT Pro都来了,ChatGPT Pro Max还会远吗? 》一文中介绍过OpenAI即将推出一款具备推理能力的新模型,今天它就来了!

北美时间9月12日下午,OpenAI官方正式宣布了新模型 o1-preview (o1预览版)的发布。和我在昨天的文章中分析的一致, o1-preview 作为新一代模型,擅长通过 推理 解决复杂的任务,尤其在科学、代码和数学方面有着显著提升。

短短2个小时,OpenAI的帖子阅读量就已突破百万。

本次发布的新模型共有2个,除了上面提到的 o1-preview ,另一个是 o1-mini ,即 o1-preview 的弟弟版本,更加注重经济高效。可以简单理解为 GPT-4o 和 GPT-4o mini 的关系。

o1 模型发布后,OpenAI的CEO Sam Altman也是随即在社交媒体发表多个帖子表示这将会是目前最强大、最对齐的模型。虽然该模型还不完美,但它将令人感到惊艳。

o1 工作原理

o1 模型的工作原理可以简单概括为,OpenAI通过让模型在回复前 花更多时间思考 ,从而提升其 解决复杂问题的能力 。与传统的AI模型不同, o1 更加 注重推理过程 ,类似于人类在面对难题时,先花时间分析、思考,再做出回应。

在训练过程中,模型能够逐步优化思维方式,尝试不同的策略,并能够自我识别和纠错。通过这种反复训练, o1 逐渐掌握了精细化的推理能力,能够在解决问题时更加准确和灵活。

从测试结果来看,本次更新的 o1 模型在物理、化学和生物学等复杂学科的高难度基准任务上,表现 几乎与博士生相当 。在 数学 和 编码 领域,该模型的表现更加出色。在 国际数学奥林匹克 (IMO)资格考试中, GPT-4o 只能正确解决 13 %的问题,而该推理模型 o1 的正确率达到了惊人的 83 %。同时,在Codeforces编程竞赛中, o1 的表现达到了第 89 百分位(即表现超过了89%的评估对象,排名前11%),展现出其在编码任务中的强大能力。

作为一款早期模型, o1 模型目前还没有浏览网页、上传文件和图像等ChatGPT的一些常用功能,但在复杂的推理任务中, o1 的表现已经显著超越了之前的模型,包括 GPT-4o ,这一表现无疑代表着AI模型的新高度。

OpenAI对此模型寄予厚望,认为它能够大幅提升科学、数学和编程等领域的工作效率。也正因此,OpenAI决定将版本编号从头开始,并将这个系列模型重新命名为 o1 。

新模型的安全性能

安全性 一直是AI模型开发中的核心问题,尤其是在模型推理能力不断提升的背景下。针对 o1 系列模型,OpenAI表示采用了全新的安全训练方法,通过引入模型的推理能力,使其能够更好地遵循安全和对齐指南。与传统的规则式限制不同, o1 模型能够根据上下文进行推理,从而更有效地应用这些安全规则。

OpenAI采取了更严格的安全评估机制,以确保新模型在面对复杂场景时依然能够遵守安全规则。例如,在用户试图绕过安全限制(即“越狱”)的情况下,OpenAI对模型进行了专门的测试。根据测试结果,上一代的GPT-4o在越狱测试中的得分仅为 22 (满分100分),而 o1-preview 模型则取得了 84 的高分。

为了进一步增强这些模型的安全保障,OpenAI还强化了内部治理体系,并加强了与政府的合作。这包括使用 准备框架 进行的全面测试、顶级的红队测试,以及由 安全与安保委员会 主持的董事会级别的审查流程。

o1 适用人群

o1 系列模型所具备的增强推理能力,特别适合那些 需要处理复杂问题 的专业领域,无论是 科学研究 、 代码开发 ,还是 数学运算 等相关领域。这一新一代模型能够通过其强大的推理能力解决此前难以处理的复杂任务。

举例来说, o1 可以帮助医疗研究人员标注细胞测序数据,这在生命科学领域中的基因研究、药物研发等方面尤为重要。对于物理学家来说, o1 能够生成量子光学所需的复杂数学公式,大幅提升研究过程中的计算效率和准确性。同时, o1 还可以支持各类开发者,帮助他们构建和执行多步骤的工作流程,自动化和优化工作任务。无论是处理大规模数据集,还是编写复杂算法, o1 都能够以其卓越的推理能力为开发者提供支持。

这也意味着,在这些需要精确计算和严密推理的领域, o1 将能够显著提升生产力,减少人为错误,并大幅加快科研进程和开发速度。不仅如此,随着 o1 模型的持续改进和功能拓展,它未来将有望在更多领域中发挥作用,帮助从事各类复杂任务的专业人员提升工作效率和成果质量。

o1-mini :更经济高效的选择

o1 系列模型在复杂代码生成和调试方面表现出色,为了给开发者提供更高效的解决方案,OpenAI还推出了 o1-mini 。相比于 o1-preview , o1-mini 速度更快,且成本更低,特别适合那些需要推理但不需要广泛世界知识的应用场景。作为一个较小的模型, o1-mini 的价格比 o1-preview 便宜 80 %,因此在需要强大推理能力的同时,又考虑成本的应用中, o1-mini 可能是一个更好的选择。

如何使用 o1 模型

从今天(9月12日)起, ChatGPT Plus 和 Team 用户可以在ChatGPT中手动选择 o1 系列模型,包括 o1-preview 还是 o1-mini 。在当前阶段, o1-preview 消息限额为 每周30条 , o1-mini 则为 每周50条 。是的,你没有看错,30条和50条是每周的限额。

从下周开始, ChatGPT Enterprise 和 Edu 用户也将获得访问这两个模型的权限。

对于API用户,符合 使用等级5 (usage tier 5)的开发者今天就可以开始使用这两个模型,初期API速率限制为 每分钟20次请求 。目前API版本不支持函数调用、流式传输和系统消息等功能,但这些功能的增加和限制的提升正在进行测试,OpenAI也将在后续扩展更多功能。

值得一提的是,OpenAI还计划将 o1-mini 开放给所有 ChatGPT免费用户 ,让更多用户能够享受到这个新推理模型。

未来展望

目前, o1 系列模型仍处于早期预览阶段,用户可以通过 ChatGPT 和 API 体验其推理能力。随着模型的持续改进,OpenAI计划为 o1 系列增加更多实用功能,如网页浏览、文件上传、图片处理等,进一步提升模型的实用性。

与此同时,OpenAI表示,除了 o1 系列,OpenAI并未停止对 GPT 系列的开发。未来, GPT 系列模型也将继续更新和发布,与 o1 系列共同发展。

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END
分享
二维码
< <上一篇
下一篇>>