欢迎来到天天文库
浏览记录
ID:10158219
大小:30.00 KB
页数:7页
时间:2018-06-11
《基于统计方法的英语长难句句法分析器研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于统计方法的英语长难句句法分析器研究与实现摘要:针对高校学生在英语阅读训练中存在长难句理解障碍等问题,借助自然语言处理技术与UI处理技术,重点研究一种在线分析与描述英语长难句结构的工具,以帮助高校学生消除理解障碍,促使其提高英语阅读能力。关键词:统计方法;句法分析器;自然语言处理技术;UI处理技术DOIDOI:10.11907/rjdk.151089中图分类号:TP319文献标识码:A文章编号:16727800(2015)006012502基金项目基金项目:江苏省高等学校大学生实践创新训练计划项目(201411122007Z)作者简介作者简介:孙杰欢(1993-),男
2、,江苏常州人,三江学院计算机科学与工程学院学生,研究方向为数据库及Web开发;张鑫(1993-),男,江苏盐城人,三江学院计算机科学与工程学院学生,研究方向为数据库及Web开发;高利(1994-),男,7江苏盐城人,三江学院计算机科学与工程学院学生,研究方向为数据库及Web开发;姚佳梦(1993-),女,江苏江阴人,三江学院计算机科学与工程学院学生,研究方向为数据库及Web开发;顾问(1984-),男,江苏无锡人,三江学院计算机科学与工程学院实验师,研究方向为数据库及Web开发。0引言提高大学生阅读能力是高校英语教学中的重要任务之一。在高校英语阅读训练中,长句或难句出现
3、的频率很高,学生语法知识薄弱等问题直接导致其对长难句内部结构的理解模糊不清。针对此问题,笔者借助自然语言处理技术与UI处理技术,研究了一种在线分析与描述英语长难句结构的工具,以帮助学生消除理解障碍,在使用过程中逐步理解常见长难句的组成部分,从而促使其提高阅读能力。1英语长难句句法分析难点7英语句子由主干和修饰成分两部分组成。主干一般指句子的主要结构,由主谓宾或主系表组成,而修饰成分为单词、短语、从句3类。其中单词主要是形容词和副词;短语主要是介词短语;从句主要是定语从句和状语从句。在大学英语阅读训练过程中,为了考查学生的阅读能力,经常会出现复杂的修饰、倒装等方式相互结合
4、使用的长难句,这类句子打断了学生正常的阅读习惯。较难理解的词句有如下几种:①倒装句。这类句子不同于正常语序,需要重新理解句子成分,加大了对句子理解的难度;②虚拟语气。通常表示假想,而不表示客观存在的事实,其形式变化多种多样;③比较级和最高级。比较级和最高级有特殊形式,对单词的不熟悉容易增加句子理解难度;④双重否定。这种句子在形式上或者语义上用双重否定设置了圈套,干扰了读者的阅读思维,造成了句子理解困难;⑤习惯用语或固定词组。这涉及到阅读者的知识面,如果阅读者对这些固定组合不熟悉,就很难理解。笔者研究发现,对于上述①、③、⑤这3类句子,在借助计算机相关技术进行处理后,能够
5、得到较为清晰的分析结果,从而让高校学生从句子结构方面理解这些长难句。2基于统计方法的句法分析器随着人们对自然语言研究的逐步深入,以及语料库和语料库语言学的兴起,传统基于规则的语言模型受到了质疑,自然语言处理的主要目标也转为对大规模真实文本的处理,概率和统计驱动的方法几乎成为了自然语言处理的标准方法[2]。2.1统计模型与句法分析器自然语言处理的核心是构造语言模型,而语言模型就是一种借用数学模型来描述自然语言内在规律的模型。目前,很多学者都在研究基于统计的语言模型,它通常是概率模型,计算机通过使用统计模型对句子中的单词进行概率分析,估算出自然语言中语言成分出现的可能性,不
6、像传统的规则型语言模型单纯判断该单词是否符合语言学规则。这种概率性的语言统计模型在很大程度上比规则语言模型更加客观和全面。7目前,语言统计模型在自然语言处理中已相对成熟,比较典型的有:最大熵语言模型、概率上下文无关语法(PCFG)、隐马尔可夫模型(HMM)、支持向量机(SVM)、条件随机场(CRF)、基于决策树的语言模型等[2]。基于各类统计模型也相应产生了诸多句法分析器,相比较而言,Apache的OpenNLPParser和Stanford的StanfordParser较为杰出并且分析结果比较准确。2.2OpenNLPParserOpenNLPParser利用MaxE
7、nt选择概率最大的标记作为一个句子中某个单词的所属分类。利用这种方法进行词类标注虽然简单,但有一个致命缺点:这种分类器是自左向右移动窗口标记的,分类器移动到下一个单次前就必须对它前一个单词作出硬性判断,这样的分类器不能利用后面的单词信息纠正前面的错误判断。2.3StanfordParserStanfordParser是StanfordNLP小组提供的一系列工具之一,能够用来完成语法分析任务。它是基于概率上下文无关语法(PCFG)实现的一个句法分析器。一个概率上下文无关文法(PCFG)是一个五元组(N,∑,S,R,P):①一个非终结符集N;
此文档下载收益归作者所有