欢迎访问“安徽语言文字网”
首 页机构简介工作动态政策法规规范标准语文知识学术交流
当前位置:学术交流论文交流
浅析《计算机辅助普通话水平测试评分试行办法》
【分类:论文交流‖来源:国家语委普通话培训测试中心‖上传:安徽省普通话培训测试中心(管理员)‖时间:2012/4/12‖阅读:4735】

浅析《计算机辅助普通话水平测试评分试行办法》

孙海娜

(教育部语言文字应用研究所(国家语委普通话培训测试中心)副研究员,华中科技大学文学院博士生,主要研究应用语言学、普通话教学与测试。)

[摘要]本文探讨了制定《计算机辅助普通话水平测试评分试行办法》遵循的主要原则,认为该试行办法以《普通话水平测试大纲》作为评分实践的根本准则,科学总结和吸收各试点地区机辅测试评分实践的成功经验,保证了机辅测试与人工测试在评分标准把握上的稳定性和连续性,有利于促进各试点地区机辅测试评分实践的规范和统一。同时讨论了如何在评分实践中理解和把握该试行办法,以及该试行办法在施行中应注意的问题。

[关键词]计算机辅助普通话水平测试;评分试行办法

运用计算机技术辅助普通话水平测试,是普通话水平测试操作模式的重大改变,是测试手段现代化的一次跨越性发展。开展计算机辅助普通话水平测试(以下称“机辅测试”)试点,是积累机辅测试实践经验,进一步完善机辅测试系统,推进测试管理规范化、科学化的有效措施,是在更大范围推广应用机辅测试的重要基础。自 2007 年 12 月 31 日教育部语言文字应用管理司批复同意安徽、上海和天津 3 省市开展机辅测试试点以来,全国已有 15 个省(区、市)相继展开了试点工作,其中安徽、上海、江苏、辽宁 4 省市全面推广了机辅测试试点,全国约 150 万人次参加了这一新的模式操作下的测试。

为在全国范围内统一机辅测试的评分办法,规范新的测试操作模式下的评分实践,国家语委普通话培训测试中心在充分调研和收集梳理各试点地区评分实践经验的基础上,研究起草了《计算机辅助普通话水平测试评分试行办法》(以下称《评分试行办法》),随后提交 2008 年12 月召开的机辅测试业务研讨和质量分析会进行研讨,并根据各试点地区意见和建议认真进行了修订。2009 年 1 月 9 日,教育部语言文字应用管理司正式印发试行《评分试行办法》(教语用司函[2009]5 号)。

一、制定《评分试行办法》遵循的主要原则

(一)维护《普通话水平测试大纲》的权威性和完整性

《评分试行办法》规定:“根据《普通话水平测试大纲》……制定本试行办法(第一条)。”质量是测试的生命线,机辅测试试点成功与否的关键,首先在于能否切实保证测试质量;保证测试质量的核心和前提,是无论测试操作模式如何改变,都必须坚持以《普通话水平测试大纲》(以下称《大纲》)作为评分实践的根本依据,维护《大纲》在测试实践中的权威性和完整性。这是《评分试行办法》必须遵循的基本原则,也是保证机辅测试质量,维护考生权益和测试信誉,确保试点规范、有序、健康开展并取得实际效果的基础。

(二)保证机辅测试与人工测试在评分标准把握上的稳定性和连续性

机辅测试和人工测试在多个方面存在区别,其中一个不同是评测形式发生重大改变:人工测试由两至三名测试员面对应试人现场评分,测试员在独立评测的基础上可以沟通或协商,评分差异在四个测试项都可能出现;机辅测试则通过测试信息管理系统,将应试人前三项的语音分配至计算机评测系统评定分数,将第四项分配至两至三名测试员进行评测,测试员均独立评分,不能进行沟通和协商,评分差异仅出现在第四项。

评测形式的改变,打破了测试员在人工测试操作模式下形成的评分习惯,测试员要适应独立且单独评测第四项。不因评测形式不同而影响测试员对评分标准的把握,这在目前机辅测试与人工测试并存的状况下,尤其应予以高度重视。《评分试行办法》既遵行《大纲》所有的评分要素,又根据机辅测试的实际增加了新的评分要素,保证了机辅测试与人工测试在评分标准把握上的稳定性和连续性,对科学指导测试实践、维护测试公平公正具有现实意义。

(三)科学总结和吸收各试点地区机辅测试评分实践的成功经验

机辅测试和人工测试另一个区别是受测形式的重大改变:人工测试时,应试人面对测试员完成全部四个测试项,必要时主试人可给予提示或引导;而机辅测试时,应试人面对计算机完成语音采集过程,没有测试员的现场提示或引导。受测形式的改变,使不少在人工测试模式下并不突出或未曾出现的情况和问题相继显现出来,有些甚至较为严重。这些新的情况和问题比较集中表现在第四项“命题说话”上,如:在无现场提示或引导的情况下,“明显背稿、离题、说话难以继续”等现象显著增多;人工测试模式下很少出现的“内容雷同”、基本没有出现过的“无效话语”等现象时有发生。针对这些新的情况和问题,各试点地区一方面通过认真探索、逐步完善测前培训的内容和形式加以应对,同时在机辅测试的评分实践中认真研究和制定了具体的应对措施,并在更大范围的评分实践中不断加以改进和完善,为《评分试行办法》的制定提供了重要依据。《评分试行办法》是在认真收集、梳理、研究各种新的情况和问题,科学总结和吸收各地在评分实践中的成功经验的基础上研究制定的,因而对全国各试点地区的机辅测试实践具有普遍指导意义。

(四)促进各试点地区机辅测试评分实践的规范和统一

首先,《评分试行办法》明确了机辅测试的评测形式,即“读单音节字词、读多音节词语、朗读短文项,由国家语言文字工作部门认定的计算机辅助普通话水平测试系统评定分数(第二条)”,“命题说话项由测试员评定分数(第三条)”,这是在国家测试主管部门文件中首次对机辅测试的评测形式进行的具体描述。

其次,鉴于计算机评测系统只要系统运转正常、采集到的语音数据正常,一般情况下不会出现前三项评测失败,因此《评分试行办法》重点对第四项的评分做出了基本的规范和统一。

前文提及,由于评测形式发生了重大改变,测试员在第四项的评测上遇到了很多新的问题和情况,各地在试点过程中也进行了富有成效的探索和尝试,先后研究制订了相应的应对措施,但不同地区对相同问题的处理不尽一致或存在较大差异,客观上对评测标准和评测结果造成了一定的影响。《评分试行办法》旨在针对第四项评测中遇到的共性问题提出共同遵循的处理意见,有利于促进全国各试点地区机辅测试评分实践的规范和统一。

当然,《评分试行办法》不可能全部解决机辅测试的所有问题和不足。各试点地区应在结合本地实际认真执行《评分试行办法》的同时,严格按照《计算机辅助普通话水平测试操作规程(试行)》(教语用司函[2008]23 号)和《计算机辅助普通话水平测试试点业务指导意见(试行)》,推进机辅测试试点,不断总结和积累新的经验和做法,才能最大程度地规范机辅测试操作的全过程。

二、对《评分试行办法》的理解和把握

由于机辅测试的评分差异仅出现在第四项,因此测试员对评分标准的把握,关键体现在对第四项的评测上。下面谈谈笔者对第四项评分的理解和体会。

1.《评分试行办法》遵行了《大纲》评分要素

(1)语音标准程度。语音标准程度的评测应是定量与定性兼顾。不宜过于机械地看待关于错误数量的表述,而应从定性方面总体把握,方音性质的错误、声韵缺陷、字调语调偏误的类型是多还是少,程度是深还是浅,均要放入“方音程度”中来评价,看其属于“不明显”“比较明显”“明显”还是“重”。

归档时,错误量和方音的程度是一并考虑的;确定具体扣分时,在错误数量相当的情况下,方音性质的字调、语调失误比例高的扣分会多一些。

(2)词汇语法规范程度。词汇、语法评定的主要视点是,是否出现典型方言性质的词汇和语法现象。带有方言性质的失误必定要在评分中有所体现,而一般性口误可从宽处理,视情况扣分。

另外,在人工测试时,如果失误性质难以确定,评判通常适度从宽;在机辅测试时,查阅相关工具书,更有利于测试员准确评分。

(3)自然流畅程度。不够自然,主要指口头言谈语体的语感差;是否流畅,主要观察应试人运用语言的熟练连贯程度。自然流畅程度应从以上两个维度来综合评价。

(4)说话不足 3 分钟。原则上为累计“语音空白”的时长,视程度扣分。

小规模试验显示,应试人说话项出现语音空白接近 5 秒钟时,测试员感知明显:停顿过长,思维和言语的连贯性就不存在了。建议在 5 秒以内(含 5 秒)的语音空白,仍划归到“自然流畅程度”扣分,5 秒以上的语音空白累计时长扣分。

目前计算机评测系统有统计缺时时长的功能,但这一功能尚不十分完善。建议把计算机评测系统统计的数据作为参考,以测试员的裁定为准。

2.《评分试行办法》新增两个评分要素

这两个评分要素主要针对受测形式和评测形式的改变所导致的一些新的问题而增加的。

主要考虑:一是尽量保证人工测试和机辅测试评分一致。在机辅测试操作模式下,测试员无法完成的提示或引导工作,通过《评分试行办法》对规则的调整,可以借事前警示和提醒的方式来加以弥补。应试人通过学习和了解《评分试行办法》,应该清楚哪些做法是不当的,如果出现了会产生哪些负面影响;同时可以避免相关人员对应试人在应试技巧上的不恰当或不正确的导引。二是针对评测形式改变后实际评测中遇到的具体问题,给出评分上的统一意见。

应试人可以通过参加相关培训,了解和掌握规则,避免在这两项上无谓的失分。

(1)离题,内容雷同。离题,指命题说话的内容完全脱离指定的主题和范围。内容雷同,指把别人的作品或语句作为自己的说话内容,如,说话内容与在媒体上公开发表的文章内容相同或差异极小,不同考生说话的内容相同或差异极小。二者同属说话内容失当,因此在此项中一并考虑。

一种意见认为,这一评分要素起扣分数偏高,坡度过陡。单从评分角度来看,这种意见是有一定道理的。之所以对这一评分要素要求比较严格,是希望能够杜绝恶意离题(例如只准备一道题目,以不变应万变)及背诵现成文章(例如名家名篇等)等投机行为。从前期试点的情况看,这类情况出现太多,在测试现场很难给予提示、进行监督约束,有必要借惩戒措施阻止其恶意的尝试,引导考生正确对待测试。《评分试行办法》对此的处理意见,实际上也是综合了各试点地区的不同应对措施。

至于怎样判定离题和内容雷同,仍可以从这一要素的导向性出发,做更多的探索和研究。

另外,如判定“内容雷同”,测试员需举证。“离题”与“内容雷同”同时出现,不重复扣分。

(2)无效话语。无效话语,指应试人的话语与要测查的语言特征无关,无评判效度。这种现象在人工测试中基本没有出现过,试点中却时有发现,并以不同形式表现出来,如语句不断重复、读秒、数数、唱歌等。

三、《评分试行办法》施行中应注意的问题

(一)重视和加强对应试人的测前培训

测前培训应根据机辅测试的实际增加包括测试流程,机器操作,评分规则等方面的内容,目的在于使应试人掌握测试流程,熟悉操作方法,了解评分规则。上述内容的培训,可以通过举办培训班、发放应试指南、在网站刊登应试守则等各种方式完成。

(二)加强对测试员的适应性培训

机辅测试操作模式下,对测试员的适应性培训十分必要。没有前三项的语音情况参照和评分参考,对应试人语音情况做判断,让测试员感觉缺少延续性,无法从整体上予以把握。测试员在独立评分时,不能相互印证,也无法协商,会感觉“心里没底”。这都需要对测试员进行有针对性的培训,以帮助其尽快适应。

(三)进一步改进和完善计算机评测系统

试点发现,目前计算机评测系统对前三项的评定,在二级甲等到三级甲等区间是比较准确的,可以说对大部分应试对象的评价是比较公正的。但对高等级和较低等级的评定尚不稳定,主要原因是采集的高等级的语音样本较少,较低等级的语音样本的地区覆盖程度也不够,造成同一系统在部分地区的测试效果较好、信度较高,而在另外一部分地区评分不够精确、问题比较突出。

因此,在机辅测试试点过程中,各试点地区应与计算机评测系统研发单位加强协作、共同努力,重视对试点的跟踪研究和质量监控,同时充分利用各试点地区的资源,不断充实各地区不同等级的样本,进一步改进和完善计算机评测系统。据悉,国家语委普通话培训测试中心也已将普通话水平测试标准样本库的建设纳入工作规划,这一样本库建成并应用于此,可使计算机评测系统的整体水平有较大幅度的提升。

(四)在实践中逐步完善机辅测试的评分办法

《评分试行办法》是各试点地区实践经验的阶段性总结,还需要在更多具体实践中得到检验和完善。随着试点范围的扩大和试点工作的深入,还可能出现一些目前尚未遇到的问题需要解决,针对现有问题也还可以进一步探索和总结更科学有效的应对办法。在实践中继续深入探索、研究和完善机辅测试的评分办法,应当成为试点工作的最主要内容之一,是机辅测试试点和推广应用过程中永恒的课题,也是推动机辅测试科学发展的必然要求。

 

[附 注]

①《大纲》规定的五项测试可根据情况调整为四项测试,机辅测试采用四项测试。

②《大纲》规定:“如发现应试人有明显背稿、离题、说话难以继续等表现时,主试人应及时提示或引导。”

③ 《计算机辅助普通话水平测试试点业务指导意见(试行)》(国语普测[2010]8 号)。

 

[参考文献]

[1]陈章太. 论普通话水平测试等级标准[J]. 语言文字应用,1997,(3).

[2]单虹,王颐嘉,乔丽华. 普通话水平测试评分细则研究[A]. 第三届全国普通话水平测试学术研讨会论文集[C]. 北京:语文出版社,2009.

[3]国家语言文字工作委员会普通话培训测试中心编. 普通话水平测试实施纲要[M]. 北京:商务印书馆,2005.

[4]宋欣桥. 普通话水平测试员实用手册[M]. 北京:商务印书馆,2004.

[5]宋欣桥. 试论普通话水平测试(PSC)[A]. 首届全国普通话水平测试学术研讨会论文集[C]. 北京:语文出版社,2002.

[6]孙修章.“普通话水平测试标准”的研制与实践[J]. 语言文字应用,1992,(1).

[7]王晖.《普通话水平测试大纲》修订的若干问题[J]. 澳门语言学刊,2004,(28).

[8]王晖. 略论普通话水平测试的评分系统[J]. 语言文字应用,2004,(3).

[9]姚喜双.《大纲》的修订和《纲要》研制的思考[J]. 语言文字应用,2004,(3).





测试安排、报名时间请咨询测试站,点击这里查看联系方式。咨询/投诉:ahpsc@qq.com,0551-62677300、62655300。

地址:合肥市庐阳区六安路7号华信大厦3楼