【摘 要】笔者以医学英语学习者为主要服务设计对象,以医学内科界的权威书籍Cecil Textbook of Medicine为语料库,以自主开发的词频统计软件获取的单词词频为依据,参考了GSL&AWL 词汇表,构建了两个医学英语词汇表,分别是General Word List of Internal Medicine 和Internal Medicine Terminology List,旨在提高医学英语学习者单词记忆有效性,也为医学英语的教材编写、教学大纲的确定以及在此基础上衍生的医学英语学习者语料库的完善和计算机辅助教学的展开提供一定的学术参考。

【关键词】医学英语 Cecil Textbook of Medicine 语料库语言学 词频 GSL&AWL

基金项目:西安思源学院2016年横向课题“基于Cecil Textbook of Medicine的医学英语词表构建”。

引言

随着20世纪80年代开始大规模计算机语料库的陆续创建和数据驱动的语言学研究方法的普及,研究者们得以通过定量的方法对词汇进行更客观准确的统计。将词汇按照使用频次来划分,成为语料库方法下词汇研究的重要成果,对于外语教学也具有重要的指导意义[1]。医学英语具有词汇量大、结构复杂、专业性强、难以记忆等特点,而通过词频统计筛选出高频医学词汇,可以从一定程度上解决医学英语词汇习得中的这一瓶颈问题。

理论回顾

1.Cecil Textbook of Medicine

Cecil Textbook of Medicine由J. Claude Bennett, M.D.和Fred Plum, M.D.编纂,是集合各方面专家共同执笔的、世界上最具权威的医学内科学宝典。基于以下3方面原因该书被选为本文语料库:

第一,经典著作,确保语料库的可信性。Cecil Textbook of Medicine自1927年出版以来,再版22次,获得医学界专家一致的好评,拥有数万拥趸。它清晰的写作和权威的疾病论述使得成千上万的读者自动地视其为首选参考书。

第二,完整涵盖内科学,确保语料库的完整性。全书共包括2,132,382个字,共计28个单元、448章。每章都详细阐述了一种或一类疾病从发病机理到临床及愈后的各环节,强调病理个生理机制。因此,通过学习该书,读者可以系统、深刻地认识整个内科学[2]。

第三,电子版本确保语料库的可操作性。第22版的《西塞尔内科学》随书赠送光盘,有利于词频统计软件进行词频分析统计。

2.词频和词频统计软件

词频影响着语言从输入到输出的转化,影响着语言加工的熟练程度和流利性。随着计算机技术、语料库以及语料库语言学的发展,对词频作用的研究也成为语言学及语言教学的一个研究热点。而跟词频密切相关的就是语料库和语料库语言学。词频统计的发展伴随着语料库的发展,许多语料库也提供相应的词频统计表;反之,词频统计也为语料库的建立提供了重要、有价值的信息和线索。

词频统计是词汇分级和筛选的重要依据,在教学大纲设计、教材编写、语言测试、语言习得等方面都有广泛的应用。根据词频统计的结果,分析、整理得出的词汇表是非常有价值的。根据词频,哪些单词是重点,学习者一目了然,从而学习和积累针对个体差异的积极词汇和认知词汇。而医学英语作为专门用途英语ESP(English for Special Purpose),更是需要词频来指导学习者进行语言习得。随着计算机的迅猛发展,越来越多的词频统计软件被开发和应用。此次,作者专门根据课题的需要开发设计了一个词频统计软件。

3.GSL&AWL词汇表

高频词汇涵盖口语及各类书面语中的大部分常用词汇,最具代表性的是由West(1953)提出的一般用途英语词汇表GSL(General Service List),其中包含英语中最为常用的2000个词组,覆盖了英语口语中大约90%~95%的词汇和书面语中80%~85%的用词,可满足日常一般用途英语的使用需要[3]。此论文中采用的是1995年由John Bauman and Brent Culligan创立的词表。此词汇表不仅包括1953年构建的GWL词表最初收录的2000个中心词,还增加了在Brown Corpus出现频率较高的284个中心词。

AWL是Academic Word List的缩写,即英语学术词汇表,由Averil Coxhead在新西兰惠灵顿维多利亚大学创建。该表包括了570个词组(head word),涵盖除GSL以外学术语篇中出现的约10%的词汇。且按照使用频率划分为10个子词表,其中一个子列表则包含词频最低的学术词汇[4]。AWL以大量真实的学术英语语料为基础,采用了合理的建构方法,不仅科学地指出ESP即学术英语教学中哪些词汇应该被包含在学习材料中,同时,AWL子表的编排也为ESP教材的编写和词汇教学的顺序提供了一定依据。这也是本文选用AWL作为甄选比对单词覆盖率词表的原因所在。

词表建构

在词频统计中,专业学术英语词汇选择通常遵循两个主要标准,即范围和频率。在AWL的编制过程中,最终进入词表的词汇不应包含GSL,但能够覆盖建库28个学科中一半以上学科语料,即保证入选词汇使用范围的广度。入选词汇还应达到一定的使用频率要求。在AWL所建3,500,000个词的学术英语语料库中,最终统计生成的学术英语词汇在语料库中的使用频率至少应达到100次以上,而高频学术词汇的使用频率可达数千次。所以,在自建专业学术英语语料库基础上进行词频统计时,建库者可根据实际需要来设定词汇筛选统计的范围和频率标准[5]。因此,单词甄选基于以下3个基本原则:第一,根据词频,高频词入选词表。第二,根据词表的大小。第三,根据对象。Cecil Textbook of Medicine的主要读者是医生、医学从业者、医学院高年级学生、研究生等。他们本身已经掌握了一些GSL词表中高频单词,所以有必要将这些单词过滤出词表。具体分为以下6个步骤。

根据词频统计结果共有34,955个单词出现在Cecil Textbook of Medicine。基于词表的词汇量以及随后自建小型医学英语学习者语料库的容量,笔者从这34,955个单词中选取了大约8,000个单词。根据词频统计结果,单词出现的最高词频105,139次,而最低的词频是1次。有必要截取过滤掉这一部分功能词。下表展示了一部分截取过滤的功能词信息:

部分截词词表

通过截词将GSL词表收录的单词部分过滤出去,将剩余单词同AWL词表进行比对、分析、计算覆盖率等。

仿照antconc软件的词形还原功能,人工将词表中单词的不同变化形式进行归类、合并,组成一个单词,找出主词(headword),进一步确认其屈折变化以及派生变化。

Coxhead & Nation(2001)将英语词汇划分为四类,即高频词汇、学术词汇、专业词汇和低频词汇[6]。对于ESP学习者,造成词汇困难的不是一般用途词汇,也不是与学科高度相关的专业词汇,而是介于两者之间的学术词汇。所以,这一步骤分离常用学术词汇(半专业词汇)和专业词汇。最终得到两个医学英语词表,分别为General Word List of Internal Medicine 和Internal Medicine Terminology List。

为了进一步减少失误,在上述步骤都完成之后, 笔者邀请了医学英语界的权威、医学英语教师、内科医生、医学专业在校学生,对词表做最后的检查和鉴定。

进一步开发语料库

在词表的基础上,可以研究开发开放式医学英语学习者语料库。该语料库专为Cecil Textbook of Medicine英文版的学习者设计,收录该单词在Cecil Textbook of Medicine中出现的频率,通过前缀、后缀、词根以及屈折变化、派生变化等构词法分析来强化记忆,也提供检索功能,语料库使用者可以检索出该单词在Cecil Textbook of Medicine 中的相关例句,也可向语料库中添加没有被语料库收录的词条等。

参考文献:

[1]张敏:《专业学术英语词汇表编制及其在EAP教学中的应用》,《重庆世界》2011年第28(6)期,第100-102页。

[2]J.Claude Bennett,M.D.& Fred Plum,M.D:Cecil Textbook of Medicine,(W.B.Saunders Company , 2003).

[3]M.West:A general service list of English words, (London Longman Green &Co.,1953).

[4]A.Coxhead:“A new academic word list”,TESOL Quarterly,2000,34(2):P213 -238.

[5]HylandK,TseP:Is there an “‘academic vocabulary’?”TESOL Quarterly,2007,41(2):P235-253.

[6]Flowerdew & Peacock:Research perspectives on English for academic purposes(Cambridge: Cambridge University Press,2001).