用魔法打败魔法OpenAICriticGPT详细解读

shadowrocket • 2026年1月22日 am8:01 • Shadowrocket官网

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

ChatGPT 可能大家即使没用过也多多少少听说过，那么 CriticGPT 呢？

CriticGPT是OpenAI新训练的一个基于 GPT-4 的AI模型，专门被设计用于识别和批评ChatGPT生成的代码和回答中的错误。它通过提供详细的批评和反馈，帮助人类训练师更准确地发现并纠正这些错误，从而提高AI输出的质量和可靠性。OpenAI官方表示，CriticGPT的批评建议虽然不总是完美无误，但它能够显著增强人类训练师发现问题的能力，减少错误和幻觉的产生。

背景

GPT-4 系列模型驱动着ChatGPT，通过“ 人类反馈强化学习 ”（ Reinforcement Learning from Human Feedback，RLHF ）对齐，以增强它的互动性以及生成效果。RLHF的一个关键部分是收集比较数据（Collecting Comparisons），在这一过程中，AI训练师比较并评价ChatGPT的不同响应。

随着像 GPT-4 这样的AI模型在推理和行为模拟方面不断进步，ChatGPT的准确性得到了显著提升，但同时它所犯的错误也变得更加隐蔽。这导致AI训练师在识别错误时面临更大挑战，使得基于人类反馈的强化学习（RLHF）中的比较任务变得更加复杂。这种难以察觉的错误是RLHF的一个固有局限，随着AI模型逐渐积累比任何能提供反馈的人类更丰富的知识，模型的对齐校准工作也变得越来越困难。

正是基于这样的背景和挑战，OpenAI的研究人员训练了 CriticGPT 来专门用于指出错误和提出反馈，这些批评和反馈能够突出ChatGPT答案中的不准确性。

关于CriticGPT

CriticGPT，与ChatGPT类似，也是通过人类反馈强化学习（RLHF）训练出来的模型。但与ChatGPT不同的是，CriticGPT专门被训练来识别和批评ChatGPT输出中的错误。为了做到这一点，研究人员让AI训练师故意在ChatGPT生成的代码中引入错误，并为这些错误提供反馈，就像他们真的发现了这些错误一样。然后，这些AI训练师会评估不同的批评和反馈，以确定哪些批评能够准确地捕捉到他们故意插入的错误。

在这个实验中，研究人员不仅测试了CriticGPT识别人为插入错误的能力，还考察了它发现ChatGPT自然产生错误的能力。结果显示，在 63 %的情况下，训练师更倾向于CriticGPT的批评，这主要是因为CriticGPT在批评时更少提出无关紧要的小问题，并且不容易产生错误的判断。

此外，通过在测试阶段采用额外的搜索技术，CriticGPT能够生成更加详尽和深入的批评。这种方法能够调整CriticGPT寻找问题的积极性，并在错误判断（幻觉）和发现问题的数量（召回率）之间找到一个平衡点。这样，CriticGPT就能生成对RLHF过程最有帮助的批评。

实验结果表明，当研究者利用CriticGPT进行代码审查时，他们识别错误的效率比没有使用该工具的人提高了 60 %。目前，OpenAI正着手将CriticGPT模型整合到RLHF（人类反馈强化学习）标签流程中，以便为AI训练师提供直接的AI反馈支持。

CriticGPT在提供批评和反馈时，并不保证每次都能百分之百正确，但它能够帮助AI训练师发现ChatGPT输出中的更多问题，这是他们仅凭自身能力难以做到的。使用CriticGPT时，AI的辅助作用使得批评更加深入和全面，同时减少了模型独立工作时可能出现的幻觉型错误。

上面张图表展示了人类AI训练师与CriticGPT模型在代码审查中的性能对比，以及他们合作时的效果。图表一部分是关于批评的全面性（comprehensiveness），另一部分是关于幻觉问题（hallucinates a problem）的比例，其中越低表示越好。

全面性（Comprehensiveness）：衡量的是批评覆盖问题的比例。

单独的AI训练师的批评全面性约为45%。

单独的CriticGPT模型的批评全面性约为65%。

当AI训练师与CriticGPT结合使用时，批评的全面性略低于单独的CriticGPT模型。

幻觉问题（Hallucinates a Problem）：衡量的是错误地识别出不存在问题的比例，理想情况是这个比例尽可能低。

单独的AI训练师在批评中产生幻觉问题的比例约为10%。

单独的CriticGPT模型产生幻觉问题的比例约为15%。

当AI训练师与CriticGPT结合使用时，产生幻觉问题的比例降低至6%-8%左右。

总结来看，AI训练师与CriticGPT的结合使用可以显著提高批评的全面性，并且减少错误地识别问题的情况，这表明AI与人类合作在提高AI输出质量方面是有效的。

精选推荐

使用GPT-4o模型的5种方法，总有一种适合你！

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END

二维码

OpenAI提出从AI到AGI通用人工智能的五级分类系统

< <上一篇

重磅GPT4o和GPT4omini开放微调每天免费100万tokens

下一篇>>

搜索内容

用魔法打败魔法OpenAICriticGPT详细解读

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐