基于大型可比语料库的中国学者科学家学

北京航空航天大学卫乃兴主持完成的国家社会科学基金项目《基于大型可比语料库的中国学者(科学家)学术英语现状研究》(项目批准号为:13BYY),最终成果为同名专著。课题组成员有:高霞、何宇茵、张毓、杨越森、王冰昕、张磊、高歌、杨晨姣。

一研究的目的和意义

(一)研究目的

(1)通过大型中西学者学术英语可比语料库的建设和探索,从多视角定量、定性描述、探讨中国学者学术英语的词汇—语法特征、话语策略、话语行为与意义方式,凸显其不同于西方学者文本的显著性差异特征。(2)探索可比语料库建设的技术方案优化与改进;尝试开发新的短语单位自动认定技术和学术文本“局部语法”、“语义序列”研究分析技术,为研究意义单位提供坚实的技术与数据支撑。

(二)研究意义

该成果基于数据开展中国学者学术英语现状研究,发现了不同于以往研究结论的重要内容及底层制约机制,丰富或重构ESP及相关领域的某些描述体系,完善有关理论表述。项目所开展的系列研究为重新审视和探讨话语策略和话语行为提供了新的观察视角和方法路径。这对学术英语能力的多层面评估与衡量,对我国的英语教育、ESP教育决策可提供有价值的反馈和参照。

二成果的主要内容和重要观点或对策建议

(一)主要内容

1.建设了一个截至目前国内最大容量的中外学术英语可比语料库Bei-jingCARE(BeijingCollectionofAcademicResearchEssays)

该库由“中国学者论文库”和“西方学者论文库”两大子库组成,涵盖自然科学、工程学科、生命与医学、人文与社会科学四大领域内共23个学科的学术论文。于年初步建成,并逐年持续更新至今。BeijingCARE语料库所含文本均为~年各学科影响因子较高的国际学术期刊所发表的西方国家学者和中国学者的论文,所选期刊总计种。全库共计收录篇论文,总库容为形符、类符。其中,西方学者子库包含个文本,总形符词次、类符词,标准类符/形符比率为35.51%;各学科子库库容在形符到形符之间。中国学者论文库共收录个文本,包含13841形符、类符,标准类符/形符比率为33.29%;各学科子库库容在形符到形符之间。中国学者论文的第一作者均来自中国大陆,西方学者论文库第一作者来自英语内圈国家,包括英国、美国、加拿大、澳大利亚和新西兰。

2.语料加工

对语料进行了适用于不同目的的多种加工与标注。对全部文本进行了元信息标注和词类信息赋码,获得了POS(partofspeech)tagged语料库。并对部分语料进行句法分析和语篇特征标注。

3.短语序列计算工具开发与数据库建设

开发了新一代的短语序列计算工具(NewMI等),用于学术英语短语的自动识别、提取。我们综合多种计算技术,包括频数、内部联结力(in-ternalassociation)、边界熵(boundaryentropy)等,突破了传统互联网信息只能计算二元序列的限制,实现了基于多种统计手段的短语序列提取方法,并研制开发了相应的系统。实验结果表明,该系统能够在普通计算机上支持千万词级规模的大型语料库运算,并能显著提高短语序列的提取质量。在此基础上,我们提取了大量的n元序、短语单位、常用型式,形成了丰富的学术英语数据资源。对学术英语研究、学术话语分析的方法论建设做了有益的建设性工作。

4.尝试开发了适用于学术英语研究的“局部语法”(localgrammar)、语义序列(semanticsequence)等分析技术

形成了分析学术文本意义方式、话语策略、态度意义的新的分析框架和视角。对开辟新的研究方向具有一定的引领作用。

(二)重要观点

基于BeijingCARE语料库,我们对中西学者论文的高频短语序列、共选形式、局部功能和局部语法特征进行了系统的跨文化群体、跨学科对比分析,主要发现包括以下三个方面。

1.局部功能

不同于传统研究所述语言系统层级上的抽象/泛化功能,局部功能是有限类别文本或局部语境下的具体话语行为。局部功能不直接相关于语言系统,而与局部文本环境下的语言共选形式紧密相连。局部功能探索是将功能研究引向深入,增强了描述详尽性和解释详尽性。我们通过缜密检查高频词语共选形式,发现了中国学者论文的一系列局部功能,如概指名词(generalnouns)形式的局部功能有“呈现当前研究”、“报道结果/发现”、“提出方法”、“评价方法”、“表述效应”、“时间/条件定位”等;动词模糊语序列的局部功能有“解释数据”、“表述声言”、“验证模型/理论”、“推理”、“转述”等。

2.局部语法

不同于传统语言学描述的通用语法,局部语法是关于有限类别文本或受限意义下语言使用规律描写的一条新路径;局部语法不直接相关于语言系统,而是对具体语境下意义/功能实现方式的结构化。我们建构了适用于学术话语研究的局部语法分析框架。如“评价局部语法”的构架包括:(1)评价形式(evaluativepattern);(2)功能范畴(functionalcategory);(3)语义参量(semanticparameter);(4)局部语法形式(localgrammarpattern);(5)特征性局部语法形式(characteristiclocalgrammarpattern)。以此对比分析了中西法律学者的评价局部语法异同,发现中国学者的局部语法形式频数显著低于西方学者,且多联结于最高频的nv-linkADJto-inf.形式,揭示其评价意义表达方式十分局限。两组学者局部语法形式中的语义参量有着明显差异:西方学者趋于评价与外部物质世界相关的命题与对象;中国学者更


转载请注明:http://www.aierlanlan.com/rzdk/5225.html