【摘 要】专门用途英语口语能力测试在实际生活中需求非常广泛。但其设计、组织和执行过程却往往缺乏科学性,难以保障测试效度。文章从结构效度、内容效度、和分数效度三个层面入手,详细论述了专门用途英语口语测试设计、编写、直到评分过程中应该注意的种种问题,同时分析了测试规范的制订过程以及它在保障测试效度中的重要性。

【关键词】专门用途英语 口语测试 效度

中图分类号:H310.4

外语口语测试一直被认为是测试中非常困难的一个环节,其效度、信度和可行度都面临着种种挑战。具体到专门用途英语中来,由于文体和专业知识等因素的干扰,问题就会显得更加复杂。本文拟着重从效度入手,探讨专门用途英语口语测试中应该注意的问题,以期对专门用途英语口语测试的效度提高推动作用。

明确命题理念 确保结构效度

要想保证测试的效度,首先要明确命题理念,即搞清楚到底想要测试什么。具体地讲,就是专门用途英语口语能力都包括什么。Douglas 把专门用途英语测试的命题理念概括为语言知识、策略知识、和背景知识[2](P35)。

语言水平毫无疑问是外语测试命题理念中最基本的一环。具体到口语来讲,主要包括语音、词汇、语法、篇章、流利程度、话轮转换技能和语用知识等方面。关于语音,需要考察被测试者的发音是否准确清晰,重音是否正确,连读是否自然,是否掌握语调的各种变化等等。词汇方面,要求被测试者选词贴切,表意准确,搭配合适,并且富于词汇变化。语法是语言准确度的一个重要决定因素,主要表现为句子结构准确合适并且符合英美人士口语表达习惯。篇章是一个较为宏观的视角,主要考察被测试者衔接词的使用情况,信息结构的流畅程度,篇章结构的组织安排和修辞手法的使用状况。流利程度在口语中的反映较为明显,主要障碍表现为言语支吾,重复,起句失误,词语修正等。话轮转换技能是会话交际能力的重要体现,主要反映被测试者话轮获取策略、话轮控制策略和交互策略的掌握情况。语用知识则主要考察被测试者使用语言是否恰当得体,是否掌握语言暗示现象,能否使用语言顺利实现各种交际功能等等。

会话策略也是口语能力的一个重要组成部分。没有人能够熟知所有的英语单词,也没有人能够通晓各行各业,成为“万事通”,同样没有人能保证自己永远处在理想化的语言交流环境中。诸多因素决定了交流障碍存在的必然性。为了保证交际的顺利完成,对会话策略的熟练掌握和灵活运用就显得非常重要了。在无法提取到合适的单词时,被测试者应当有能力调用同义词、近义词、甚至上义词,或者对单词意思进行解释,或者按照构词法合理地“造词”。在无法确保某种表达方式时,被测试者应当知道采用适当的回避策略绕开这个难题。在的确无法表达时,被测试者应当有意识和有能力调用非语言策略,比如肢体语言,来最终完成交流。一个英语口语测试,如果缺少了对于会话策略和话轮转换技能的考察,最多只能看作宽泛意义上的外语水平测试,只不过是以口头形式进行罢了,而不能称为真正意义上的口语能力测试。

专业知识是专门用途英语测试命题理念中独有的部分。在Douglas看来,专业知识和语言知识紧密交织,具有不可分割性。“对于任何专门领域,语言都会具有该领域独特的用词、语义、句法、和语音特征,以及相应的修辞、语用、和社会语言学特征” [3](P48)。所以,专门用途英语测试必须考察被测试者是否了解普通词汇在该专门领域中的特殊用法,是否有能力对专业术语进行英汉互译,是否掌握在该专业领域中应当使用的正确文体,是否知道该专门领域中的语言交际习惯等等。具体到商务英语口语测试为例,被测试者应当表现出对商务词汇掌握的熟练程度,使用英语同外商电话交流、商贸洽谈、解决争端的能力,按照西方文化同外籍员工或老板有效沟通的能力等等。被测试者只有掌握了这些技能,才能在商务环境中实现顺畅的英语交流,才能使自己的语言能力真正用到实处,语言用于交际的最终目的才能得以实现。

广泛深入调研 保证内容效度

同一个人在不同的会话环境中会表现出不同的语言操控能力。要想反映被测试者在专门领域中对于英语的掌握程度,测试任务必须最大程度上模拟出目标语使用环境,能够真正反映被测试者在专门领域中的英语口语水平。这也正是Douglas重点强调的专门用途英语测试与一般外语测试的另一主要区别:考题的真实性 [2](P2)。也就是说,语言测试任务的特征要与目标语使用任务的特征保持高度一致。

Bachman和Palmer为我们总结了保持这种一致性所需要注意的五大方面:任务场景、任务指令、任务内容、预期反应、以及任务和预期反应之间的关系[1](P49)。任务场景包括外在环境、参与者情况以及任务所处时间等因素。具体到口语测试中,我们需要了解目标语使用任务通常是什么时间,发生在什么样的环境中(噪音、光线等),有几个人参与,身份地位如何等等。任务指令是指在设计测试任务时要考虑到目标语使用任务以何种语言(母语还是外语)、何种渠道(书面还是口头)给出指令,任务通常由几个部分组成,按照什么顺序,时间如何分配,任务完成情况的评判标准如何等等。任务内容是指测试任务要依据目标语使用任务来确定输入材料的信息量大小、语速快慢、词汇语法难易度和篇章结构清晰度。同时还要根据目标语使用任务来确定测试任务的输入材料中应当涉及到的语用功能、方言俚语、话题知识和文化特征。预期反应是指被测试者预期语言产出所具备的各种特点。同任务内容一样,要考虑到预期产出的篇幅长短、词汇语法难易度、语用功能和话题知识等。任务和预期反应之间的关系包括互动关系和幅度关系等。根据目标语使用任务的不同,互动关系可能表现为互动型、非互动型和调节型。幅度关系则是指被测试者为了完成测试任务所需要处理的输入信息量的大小。

很显然,为了能在这五大方面保证测试任务与目标语使用任务的一致性,测试设计者必须对目标语使用任务进行全面详细的了解。基本方法有实地观察、同测试组织者面谈、同在岗人员面谈、调查问卷等。实地观察是最为直接有效的调查手段。测试设计者亲自到目标语使用环境中观察了解目标语使用任务,获取第一手的资料。缺点是受时空限制较大,未必能够全面了解到各种目标语使用任务。同测试组织者面谈是较为简单易行的方法。测试设计者可以了解到测试组织者的真实想法(通常也就是测试的根本目的)。缺点是组织者(通常是行政管理者,而非专业技术人员))对于目标语使用任务的描述只能是间接资料,其准确程度有待考证。同在岗人员面谈则可以有效克服这一缺点。已经在岗的从业人员每日身处目标语使用环境,对目标语使用任务有切身体会,能够对目标语使用任务作出较为客观细致的描述。但是上述方法都需要单一进行,比较耗时,而且受个体影响较大。所以在了解到一些基本情况后,可以设计调查问卷,大量收集数据,在节省时间的同时也可以增加资料的可靠性和代表性。

严把评分体系 提高分数效度

任何一门测试都需要保证其所评分数具有一致性和稳定性,也就是传统测试学所讲的信度。Weir把它列为效度的一种,并称之为“分数效度”。本文沿用这一提法。由于口语测试自身的特点决定了它不能像阅读、听力、或者写作那样一次性集中大规模举行。它需要多位考官,耗费大量的时间,对被测试者逐一或者逐对进行测试。而口语测试评分又带有极强的主观性。这就使得考官与考官之间可能评分不统一,即使同一个考官也会受环境、情绪等影响前后评分不统一。专门用途英语口语测试也不例外,必须采取各种科学有效的手段,最大可能地提高评分的统一性,保证测试的分数效度。

首先,要制订科学、详尽的评分标准。评分标准必须以命题理念为基础。凡是命题理念当中确定了的要素在评分标准当中都应该有所体现。不在命题理念范围内的因素则不应该或者要尽可能小的影响评分结果。评分结果应该以划分档次为主,不宜采用百分制。通常认为,人对档次区分的能力以九档为限。设置过多的分数档次只会加重考官的评分难度,降低评分效率和准确性。档次标准描述要尽可能的详尽、具体、可操作化,并且要尽量避免各个档次互相作为参考标准,最好能够配以各个档次的语言样本,以加深考官对档次标准描述的理解。

其次,要培训、遴选合适的考官。目前,大部分英语口语测试的考官都是来自高校英语教师。他们的英语口语水平当然毋庸置疑。但是,考官还必须具有较强的语言敏感度和区分不同档次语言水平的甄别能力。而且,专门用途英语需要的口语考官还要对专业知识有大概的了解。所以考官也需要进行提前培训和筛选,以确保考官自己对测查内容的正确理解和考官之间对评分标准的理解相互一致,以保证测试的公正性。考官筛选的常用办法是试评,通过播放以前的测试录像或者模拟测试过程,由考官评分,并和标准分数进行对比。如果经过多次调整仍不能准确分档,则不能成为正式考官。

第三,要尽可能为每一位被测试者提供良好的测试环境。口语测试的被测试者并不是在同一时间、同一地点接受测试,而口语的发挥状况又极易受到会话环境的干扰。所以,在口语测试过程中,要尽量保证安静、舒适的客观环境。同时,考官要注意不要因为自己无意识的言行举止而使被测试者受到负面影响。良好的测试环境既有利于被测试者的正常发挥,也能确保测试的公正性,提高分数效度。

第四,加强评分监控。鉴于口语测试极强的主观性,提倡采用两位考官同时评分,取其平均值或者加权值的办法,以增加评分的准确度。如果两位考官评分差异过大,就应该考虑到至少一位考官未能准确评分的可能性。这时需要由第三位考官或者主考官介入,来综合给出最终评分。此外,可以在不干扰被测试者的情况下,对测试过程进行录音,以作为重新评分或者审查评分的依据。也可以由主考官随机抽查,亲自进入测试现场或者实时监控测试现场,检查考官的评分质量。

最后,在汇报测试结果时,应该尽量细化。尤其是对于专门用途英语口语测试,不能简单的给出一个B档或者7分。这样的测试结果到底意味着什么,不同的人会有不同的解读。应该给出一个简要的档次介绍,说明取得该成绩的被测试者在专门用途英语口语方面达到了一个什么样的水平。通过以上种种措施,相信可以较好地保障专门用途英语口语测试的分数效度。

制订测试规范 确保效度实现

效度是一个多方面的概念。各个因素互为补充,才能确保测试的整体效度[5](P13)。为了避免在测试的设计执行过程中顾此失彼,保证各种效度全面实现,非常有必要提前撰写测试规范,时时加以参考。测试规范能够明确测试设计者对于命题理念的理解,对测试任务作出详尽的描述,并且确定评分体系来指导整个评分过程。

按照模块规范理论,测试规范中最主要应当包含的三大模块是理念规范、任务规范、和评分规范[4](P117)。理念规范是测试规范中最重要的部分,任务规范和评分规范都以理念规范为基础。前文已经详细讨论了专门用途英语口语测试命题理念的三大主要内容:语言水平、会话策略、和专业知识。但是,具体制订理念规范时,在这三个方面分别对被测试者应该提出多高的要求,以及这三个方面相互之间应该是一种什么样的比重关系,则需要结合测试背景加以详细分析。例如测试的目的是什么?是企业选拔招聘未来的员工还是对现有员工进行测查从而确定下一步的培训方案?被测试者是谁?有什么样的学历背景和工作经历?在本次测试中看重的是口语能力的具体哪个方面?测试过程是否会涉及到与测试无关的其他技能?应该如何避免这些因素的干扰?这些问题都需要在理念规范中给出一个明确的答案。

制订任务规范时,要在尽力模拟目标语使用环境和充分反映命题理念的前提下,对任务形式、功能、难度等一一作出选择。是逐个测试还是成对测试?现场测试还是录音测试?采用问答形式还是角色扮演形式?测试任务以口头还是书面、文字还是图片形式给出?此外,任务规范还要详尽描述测试任务共分几个部分?分别占用多长时间?每一个部分分别测查了命题理念中的哪些要素?在要求被测试者进行语言产出之前留不留准备时间?留多长时间?所预期的语言产出是什么形式?应当涵盖什么话题内容?主要表现何种交际功能等等?任务规范中最好能够配备每个测试任务的样题,以使任务规范描述更加形象,便于测试任务编写过程参考。

评分规范当中最重要的是评分等级和标准。等级和标准的制订要科学,要以理念规范为依据。评分形式可以根据不同的实际需求,采用整体评分法或者分项评分法。对于专门用途英语口语测试来讲,比较推荐分项评分法,可以使测试结果承载更大的信息量。常用的分项标准多从语言产出的内容长度、复杂程度、流利程度和准确程度等方面入手,具体表现为语音、词汇、语法、语篇、语用、文体等细目。但是细目不宜过多,尤其是对于现场评分的情况,因为考官通常最多只能对四到五项要素同时作出判别。

测试规范的重要性决定了它的制订过程不容马虎。尤其是对于专门用途英语口语测试,应该形成由英语口语教师、外语测试专家、和专业人才组成的编创小组。其中,外语测试专家把握测试的总体方向,确保测试规范理念合理,任务适宜,评分科学。专业人才审核测试中所涉及到的专门领域知识,保证专业知识范围合理,难度适宜。英语口语教师则从教学的角度提供建议,避免测试对口语教学产生负面的反拨效应。编创小组成员不宜过多,每位组员要清楚自己的角色和任务。测试规范的撰写过程中要不断听取各方面的反馈意见。如果情况允许的话,可以用样题进行试测,从中发现问题,不断完善测试规范。

综上所述,专门用途英语口语测试时,应当首先制订科学的测试规范,为测试效度的实现提供书面依据。然后从明确命题理念、完善测试任务、加强评分体系三方面入手,采取多种有效措施,相信可以在较大程度上保障专门用途英语口语测试效度的全面实现。

参考文献:

[1]Bachman,L.&A.Palmer.Language Testing in Practice[M].Oxford: Oxford University Press,1996.

[2]Douglas,D.Assessing Languages for Specific Purposes [M]. Cambridge: Cambridge University Press,2000.

[3]Douglas,D.Three Problems in Testing Language for Specific Purposes: Authenticity, Specificity, and Inseparability[C]//C. Elder et al.Studies in Language Testing 11: Experimenting with Uncertainty.Cambridge:Cambridge University Press,2001: 45-52.

[4]Luoma,S.Assessing Speaking[M]. Cambridge: Cambridge University Press,2004.

[5]Weir,C.Language Testing and Validation: An Evidence-based Approach[M]. Basingstoke: Palgrave Macmillan,2005.