阿里云通义团队发布Qwen2.5-Math-PRM数学推理模型，7B版本力压GPT-4o

2025-01-17 03:23:42

导读阿里云通义团队推出了全新的数学推理过程奖励模型Qwen2.5-Math-PRM，提供72B和7B两种版本，性能卓越，尤其在识别推理错误方面表现突出。其...

阿里云通义团队推出了全新的数学推理过程奖励模型Qwen2.5-Math-PRM，提供72B和7B两种版本，性能卓越，尤其在识别推理错误方面表现突出。其中，7B版本成功超越GPT-4o，标志着阿里云在推理模型研发上的重要突破。

为全面评估模型表现，团队还开源了首个步骤级的评估标准ProcessBench，涵盖3400个数学问题，包括国际奥林匹克数学竞赛难度的题目。评估显示，Qwen2.5-Math-PRM的两个版本均表现出色，特别是7B版本，展现了过程奖励模型在提高推理可靠性方面的巨大潜力，为行业提供了新思路。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

标签：