2025 年 6 月 24 日,随着今年北京中考语文作文题目的揭晓,一场围绕「一堂科学课」展开的特别较量正悄然上演。
在知名科技媒体「电脑报」的组织下,DeepSeek-R1、字节豆包、讯飞星火、通义千问、腾讯混元、文心一言、GPT 七大主流大模型同台竞技,实测北京中考语文作文。本次测试聚焦题目二「一堂科学课」,其开放性要求模型在有限篇幅内整合科学史实、技术应用与情感升华,较侧重日常生活的题目一「这样生活更健康」更需具备思辨能力,也跟大模型的科技属相更相关。
为了确保公平,所有参与测试大模型统一关闭联网功能,打开 思考,以文本形式提问,并邀请全国性课程体系研发专家、中考命题高级研究员敬笑笑,及全国头部教培机构师训负责人、全国高考语文高端论坛组织者、分享人李欣雅参与,由这两位资深语文教育专家分别进行打分,取两位老师的平均分作为最终评分的形式进行实测。
最终,讯飞星火凭借平均 38.5 分(满分 40 分)的优异成绩脱颖而出,获本次横评榜首。
(注:图源/电脑报制图)
讯飞星火此次夺冠绝非偶然。前不久,在界面财联社旗下的独立科技媒体「电厂」最新发布的六大国产大模型(讯飞星火、DeepSeek、字节豆包、通义千问、腾讯混元、文心一言)高考作文实测中,讯飞星火也位列六大国产大模型之首。
讯飞星火在中高考中的优异表现并非偶然,而是其「技术+教育」双轮驱动的必然结果。
首先,在数据积累方面,具有显著的教育专业性。依托科大讯飞 21 年教育行业深耕经验,覆盖全国 5 万所中小学的庞大数据资源,使模型能精准把握各地教育特点。从 思考过程中,提及了一类卷标准,就可以看出,研发团队从海量数据中针对性筛选考纲素材及高分作文范例。
其次,在算法层面,作文生成任务对 AI 模型提出了独特挑战。与其他文本生成场景不同,作文题目通常仅提供有限的主题要求,缺乏详细 prompt 提示或多轮提问,但对应的优秀范文却存在显著差异。这种"单一题目对应海量表达方式"的特点,大幅增加了模型训练时准确理解并执行指令的难度,而讯飞星火大模型在『机器思维链』的深厚基础上, 融合了更多的教育优质数据,以『教学思维链』来驱动的 推理大模型。
科大讯飞作为中国人工智能「国家队」,讯飞星火是国内唯一基于全国产算力底座训练的 推理大模型,2025 年升级的讯飞星火 X1 实现三大技术跃迁:首创快慢思考统一模型突破认知瓶颈,创新多阶段强化学习训练法提升效率,更以比同行少一个数量级的参数量实现对 OpenAI o1 与 DeepSeek R1 的性能对标。这种"小体积、高智能"的突破性创新,结合科大讯飞 21 年深耕教育领域的专业积淀,使讯飞星火在中高考实测中始终保持领先优势。
讯飞星火的表现不仅证明了国产大模型在复杂认知任务上的硬实力,更凸显了 AI 赋能教育的深远价值。作为国内唯一基于全国产算力底座训练的 推理大模型,其「懂教育」的匠心与「全国产」的底气,正为培养新时代科学人才提供智能化支撑。从高考到中考,讯飞星火持续领跑 AI 教育赛道,是技术积淀与行业深耕的完美结合。未来,随着 AI 与教育的 融合,国产大模型将为推动科学素养提升注入更多创新动力。