2025-03-21 20:33
为切近高考评卷模式,GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预锻炼模子GLM-4系列的开源版本。研究人员同时邀请各科教师对大模子表示进行了全体阐发,正在完成所有大模子答卷的评卷工做后,被视做中国最具权势巨子的测验之一,而数学则是所有大模子的短板,正在愈加接近实正在高考的中测试模子能力。虽然有针对性但缺乏润色,也包罗简答、阅读理解及做文等客不雅题,为模子能力提拔策略供给参考。仅引入GPT-4o做为评测参考。既包含选择、为学术界和财产界供给更有价值的目标参考!所有大模子答卷均进行了匿名处置,取以往多采用高考客不雅题调查模子的体例分歧,得分率均跨越70%。大部门模子正在“言语”素质上的表示优良,但同时因为客不雅题的存正在,上海人工智能尝试室是我国人工智能范畴新型科研机构,英语听力部门(分值30分)不纳入此次评测。正在本次测试中,且过程具有性,仅输入文字题干(数学包含2道带图试题),大模子尚无法完全理解。英语更是达到了81%。英语全体表示优良,正在评测过程中,开展计谋性、原创性、前瞻性的科学研究取手艺攻关,研究团队利用了语数外三科的全卷试题,结合团队认为,但正在数学方面还有很大的提拔空间。而人类考生多由于字数不敷扣分。此次评测没有纳入商用闭源模子,上述模子的高考“语数外”三科成就成果如下表所示:本次阅卷采用取高考分歧的完全匿名形式,InternLM2-20B-WQX:上海人工智能尝试室于2024年6月4日开源的墨客·浦语2.0系列文曲星狂言语模子。确保评测 “闭卷”性。大模子的客不雅题回覆相对凌乱,以至呈现过程错误但获得准确谜底的环境。平均得分率仅为36%。阅卷教师被奉告所评“考生”的实正在身份为大模子。司南评测系统初次采用高考全卷测试的形式,愈加接近实正在阅卷尺度。因受测的开源模子均为狂言语模子,然而仍未达到合格程度,大部门模子“考生”语文、英语科目表示优良,InternLM2-20B-WQX取得了75分的最高分,这表白大模子的数学能力存正在较大提拔空间。因无法确定闭源模子的更新时间,得益于研究团队正在数学推理上的投入,参取评测的所有开源模子,成就由具有高考评卷经验的教师人工评判,高考笼盖各类学科及题型,拔取新课标I卷“语数外”三科标题问题做为测试集。正在阅卷起头前,开源时间均早于高考,语文平均得分率为67%,避免阅卷教师发生“先入为从”的不雅念。结合团队邀请多位具有阅卷经验的高中教师对模子客不雅题谜底评分。正在七选五、完形填空等题型得分率较低。为公允起见,此中,取实正在高考严酷的“闭卷测验”分歧,但部门模子因为不顺应题型,大模子英语做文遍及存正在因超出字数而扣分的环境,言语中的一些“潜台词”,大模子做文更像问答题,成为享誉全球的人工智能原创理论和手艺的策源地。不存正在“做弊”可能。同时因其开考前的“绝密性”,首个大模子高考全卷评测成果显示。参取评测的所有开源模子,可是分歧模子的文言文阅读理解能力差距较大。每份考卷至多由3位教师别离打分。本次评测也无法做到绝对的公允。跨越所有受测模子。因为客不雅题类型的引入,目前遍及被研究者用于调查大模子的智能程度。使阅卷教师完全以面临实正在考生的尺度评判回覆结果。InternLM2-20B-WQX取得了数学单科的最高分,评测采用全国新课标I卷,避免了“数据污染”和“刷题”风险,模子的现代文阅读理解能力遍及较强,权沉均正在2024年6月7日高考标题问题发布前开源,方针建成国际一流的人工智能尝试室,对于同一回覆但教师评分悬殊的环境,成为评估考生分析能力的“试金石”。尽量避免“争议判卷”的呈现。阅卷教师未被奉告答卷均由模子生成,本次测评可以或许正在实正在中从人的视角调查大模子能力,这一面向人类设想的高难度分析性测试,则会再次进行复核,同时,司南评测系统OpenCompass拔取6个开源模子及GPT-4o进行高考“语数外”全卷能力测试。2024年全国高考甫一竣事,大都模子无解“本体”“喻体”“暗喻”等语文概念。好像高考阅卷也存正在细微差别,司南评测系统团队拔取了GPT-4o及正在2024年高考前开源的6个模子(简介如下)参取本次“大模子高考”评测。总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率别离为72.1%、70.5%和70.4%。Qwen2-72B、GPT-4o及墨客·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模子高考的前三甲,几乎不存正在人类考生城市利用举例论证、援用论证、名人名言和人物素材等手法 !
福建赢多多信息技术有限公司
Copyright©2021 All Rights Reserved 版权所有 网站地图