发布日期:2025-09-22 浏览次数:
供稿:理论物理研究所 |
编校:时畅 |
编辑:胡克倩 |
审核:冯旭
近日,以北京大学物理学院本科生为核心的研究团队发表的大模型物理学基准测试 PHYBench 论文,被人工智能顶级会议 NeurlPS2025 接收。NeurIPS 作为全球最具影响力的人工智能三大顶级会议之一,2025 年度论文投稿数接近 30,000 篇,近年来录取率不足 25%,竞争异常激烈。
随着人工智能技术的迅猛发展,大模型在专业领域逐渐逼近人类水平,如何综合、准确评估 AI 模型的科学能力和推理能力变得越来越重要。为此,北京大学物理学院团队秉承学科责任,构建了专门针对物理推理能力的基准测试 PHYBench。

PHYBench 涵盖力学、热学、光学、电磁学和近代物理这五大物理领域的 500 余道精选题目,要求模型进行多步推理解答。团队采用模型闭环测试和人类解题验证,确保每一道题评测的公平性与科学性。测试结果表明,物理基准上模型的得分与模型综合能力高度相关,而当前大模型在物理推理方面存在明显不足。表现最佳的模型准确率仅为 45.8%,而人类专家达到 61.9%——AI 在物理学深度推理方面与人类专家仍有显著差距。

图例中的New Models表示论文发表(5 月 18 日)之后推出的模型
PHYBench 论文发表后在 alphaXiv 上连续两周登顶热门论文榜单,获超过 15 万次阅读量;在 Hugging Face 上月下载量超过 4000 次,荣登新兴数据集榜单第三名,并获得同赛道其他研究的多次引用。团队已开源部分试题和评测代码,为社区的进一步研究提供基础。团队开发的“表达式编辑距离(EED)”算法已被上海人工智能实验室的工作 CMPhysBench 复用。PHYBench 为 AI 模型的物理推理能力提供了系统的评估基准,为 AI 与基础科学的深度融合指明了发展方向。
PHYBench 论文作者包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等 49 位同学,其中部分同学获得了进入人工智能头部企业实习的机会。论文指导老师是北京大学物理学院理论物理研究所的朱华星教授和曹庆宏教授,北京大学智能学院的张牧涵助理教授、杨耀东助理教授以及北京计算科学研究中心的罗民兴院士。
该研究是北京大学物理学院在人工智能时代高层次人才培养改革的重要尝试,是教育部《物理学人工智能教育专用大模型》建设项目的首个重要成果。本项目还获得了北京大学物理学院学生会的大力协助,以及北京大学教务部本科教改项目、国家自然科学基金、教育部物理学 101 计划和亚洲青年科学家基金的支持。
项目资源
项目主页:https://www.phybench.cn/
数据集与代码:https://huggingface.co/datasets/Eureka-Lab/PHYBench