导读 阿里云通义团队推出了全新的数学推理过程奖励模型Qwen2.5-Math-PRM,提供72B和7B两种版本,性能卓越,尤其在识别推理错误方面表现突出。其...
阿里云通义团队推出了全新的数学推理过程奖励模型Qwen2.5-Math-PRM,提供72B和7B两种版本,性能卓越,尤其在识别推理错误方面表现突出。其中,7B版本成功超越GPT-4o,标志着阿里云在推理模型研发上的重要突破。
为全面评估模型表现,团队还开源了首个步骤级的评估标准ProcessBench,涵盖3400个数学问题,包括国际奥林匹克数学竞赛难度的题目。评估显示,Qwen2.5-Math-PRM的两个版本均表现出色,特别是7B版本,展现了过程奖励模型在提高推理可靠性方面的巨大潜力,为行业提供了新思路。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。