用魔法打败魔法OpenAICriticGPT详细解读
ChatGPT 可能大家即使没用过也多多少少听说过,那么 CriticGPT 呢?
CriticGPT是OpenAI新训练的一个基于 GPT-4 的AI模型,专门被设计用于识别和批评ChatGPT生成的代码和回答中的错误。它通过提供详细的批评和反馈,帮助人类训练师更准确地发现并纠正这些错误,从而提高AI输出的质量和可靠性。OpenAI官方表示,CriticGPT的批评建议虽然不总是完美无误,但它能够显著增强人类训练师发现问题的能力,减少错误和幻觉的产生。

背景
GPT-4 系列模型驱动着ChatGPT,通过“ 人类反馈强化学习 ”( Reinforcement Learning from Human Feedback,RLHF )对齐,以增强它的互动性以及生成效果。RLHF的一个关键部分是 收集比较数据(Collecting Comparisons) ,在这一过程中,AI训练师比较并评价ChatGPT的不同响应。
随着像 GPT-4 这样的AI模型在推理和行为模拟方面不断进步,ChatGPT的准确性得到了显著提升,但同时它所犯的错误也变得更加隐蔽。这导致AI训练师在识别错误时面临更大挑战,使得基于人类反馈的强化学习(RLHF)中的比较任务变得更加复杂。这种难以察觉的错误是RLHF的一个固有局限,随着AI模型逐渐积累比任何能提供反馈的人类更丰富的知识,模型的对齐校准工作也变得越来越困难。
正是基于这样的背景和挑战,OpenAI的研究人员训练了 CriticGPT 来专门用于指出错误和提出反馈,这些批评和反馈能够突出ChatGPT答案中的不准确性。
关于CriticGPT
CriticGPT,与ChatGPT类似,也是通过人类反馈强化学习(RLHF)训练出来的模型。但与ChatGPT不同的是,CriticGPT专门被训练来识别和批评ChatGPT输出中的错误。为了做到这一点,研究人员让AI训练师故意在ChatGPT生成的代码中引入错误,并为这些错误提供反馈,就像他们真的发现了这些错误一样。然后,这些AI训练师会评估不同的批评和反馈,以确定哪些批评能够准确地捕捉到他们故意插入的错误。
在这个实验中,研究人员不仅测试了CriticGPT识别人为插入错误的能力,还考察了它发现ChatGPT自然产生错误的能力。结果显示,在 63 %的情况下,训练师更倾向于CriticGPT的批评,这主要是因为CriticGPT在批评时更少提出无关紧要的小问题,并且不容易产生错误的判断。
此外,通过在测试阶段采用额外的搜索技术,CriticGPT能够生成更加详尽和深入的批评。这种方法能够调整CriticGPT寻找问题的积极性,并在错误判断(幻觉)和发现问题的数量(召回率)之间找到一个平衡点。这样,CriticGPT就能生成对RLHF过程最有帮助的批评。
实验结果表明,当研究者利用CriticGPT进行代码审查时,他们识别错误的效率比没有使用该工具的人提高了 60 %。目前,OpenAI正着手将CriticGPT模型整合到RLHF(人类反馈强化学习)标签流程中,以便为AI训练师提供直接的AI反馈支持。

CriticGPT在提供批评和反馈时,并不保证每次都能百分之百正确,但它能够帮助AI训练师发现ChatGPT输出中的更多问题,这是他们仅凭自身能力难以做到的。使用CriticGPT时,AI的辅助作用使得批评更加深入和全面,同时减少了模型独立工作时可能出现的幻觉型错误。

上面张图表展示了人类AI训练师与CriticGPT模型在代码审查中的性能对比,以及他们合作时的效果。图表一部分是关于批评的全面性(comprehensiveness),另一部分是关于幻觉问题(hallucinates a problem)的比例,其中越低表示越好。
全面性(Comprehensiveness) :衡量的是批评覆盖问题的比例。
单独的AI训练师的批评全面性约为45%。
单独的CriticGPT模型的批评全面性约为65%。
当AI训练师与CriticGPT结合使用时,批评的全面性略低于单独的CriticGPT模型。
幻觉问题(Hallucinates a Problem) :衡量的是错误地识别出不存在问题的比例,理想情况是这个比例尽可能低。
单独的AI训练师在批评中产生幻觉问题的比例约为10%。
单独的CriticGPT模型产生幻觉问题的比例约为15%。
当AI训练师与CriticGPT结合使用时,产生幻觉问题的比例降低至6%-8%左右。
总结来看,AI训练师与CriticGPT的结合使用可以显著提高批评的全面性,并且减少错误地识别问题的情况,这表明AI与人类合作在提高AI输出质量方面是有效的。
精选推荐
使用GPT-4o模型的5种方法,总有一种适合你!



共有 0 条评论