自然语言处理技术在中高职课程衔接中的应用

自然语言处理技术在中高职课程衔接中的应用

ID:31453953

大小:113.00 KB

页数:9页

时间:2019-01-10

自然语言处理技术在中高职课程衔接中的应用_第1页
自然语言处理技术在中高职课程衔接中的应用_第2页
自然语言处理技术在中高职课程衔接中的应用_第3页
自然语言处理技术在中高职课程衔接中的应用_第4页
自然语言处理技术在中高职课程衔接中的应用_第5页
资源描述:

《自然语言处理技术在中高职课程衔接中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、自然语言处理技术在中高职课程衔接中的应用  摘要:在中高职课程衔接的实际中,存在着中高职专业设置不对口、专业课程内容重复等问题。为了选择对口专业及查找重复课程,采用人工手段对教育教学文件进行分析研究,效率低、精确性差。而使用计算机自然语言处理技术对中高职教学文件中的文本数据进行分析,可以快速获得中高职相关专业之间的相似度及专业课程内容之间的重复度,为课程设置提供科学依据。将自然语言处理技术用于青岛远洋船员职业学院“船舶工程技术”专业中高职课程衔接问题上,对相关文件进行分析,得到合理的结论。  关键词:中高职衔接;自然语言处理技术;课程设置  中图分类号:G712文献标识码:A文章

2、编号:1672-5727(2015)11-0060-04  中高职教育课程衔接主要存在两个方面的难题:其一,中高职教育没有实行专业归类对口招生报考制度,造成中高职专业设置的对应关系不明确,各院校自行选择对接专业,造成很多中职专业在升高职时不对口。其二,中高职专业课程内容重复,使中职毕业生升入高职时重复学习相同的课程内容。  在我国,中高职课程衔接仍然依赖于专家经验。对口专业的判断及重复课程的筛选是通过对“人才培养方案”和“课程标准”9等文本文件的内容进行人工分析。面对多个专业,每个专业数十门课程,采用人工分析,工作效率低,专业的对口程度和课程重复程度难以精确的衡量。为了科学高效地

3、进行中高职课程衔接,不能仅仅依赖经验和人工分析,而应该运用计算机技术,对各院校多年积累的课程数据文件进行深入分析研究,使中高职课程衔接方法具备精确性和实用性。如何让计算机对“人才培养方案”和“课程标准”等文本文件进行自动识别分析是科学高效进行中高职课程衔接的关键。  自然语言处理(NaturalLanguageProcessing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学,是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理技术可以实现文本分类聚类、文本自动摘要、

4、机器翻译、检索系统、问答系统、人机交互等诸多功能,其中重要的一项任务就是文本相似度分析。文本相似度分析最为著名的应用案例之一是搜索引擎,如谷歌、百度等,人们能通过输入文字来查找相关的新闻等网络资源,另外,在检测学术论文是否抄袭方面文本相似度也有其关键技术的应用。所谓文本相似度计算是指利用计算机自动计算文本间的相似程度,文本相似度是表示两个或多个文本之间相似程度的一个度量参数,相似度大,说明文件相似程度高,反之文件相似程度就低。  本文运用自然语言处理中的文本相似度算法对中高职课程相关的文本数据进行分析,能够快速地找出中高职对口专业,指导课程衔接方案的合理设置。  一、自然语言处理

5、中的文本相似度算法9  文本相似度度量任务就是衡量两个文本之间语义相似的程度,是自然语言处理中一个非常重要的任务。常规的文本相似度度量方法是将文本转化词汇的集合,分析每个词在单个文本中出现的次数以及在整个语料库中出现的次数,进而利用每个文本的词频信息构建为一个向量,并利用向量间的余弦相似度或Jaccard相似度等方法计算文本之间的相似度。图1显示了文本相似度算法的主要流程。    (一)预处理  计算机可以快速地计算出两列数组之间的相似度,也可以分析出两个矩阵之间的相似度,但对于两篇文本来说,相似度的计算要相对复杂。因为,文本是非结构化的数据,数据挖掘的算法要应用到文本对象之上,

6、就必须对文本进行预处理,使其结构化,即将文本转化为数组或向量。对于中文文本的预处理技术主要包括中文分词和停用词过滤两个方面。  1.中文分词技术  中文文本与英文文本不同,词与词之间没有空格,读者阅读时要根据经验和语言知识来自行分词。因而,计算机对于中文的处理相对于以英文为代表的西文处理存在更大的难度。现有的分词方法主要有:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。对于分析者来说,自行开发中文分词算法难度较大,目前有很多开源的软件和在线工具都可以完成分词工作,如Jieba、SCWS、中科院张华平开发的ICTCLAS、武汉大学沈阳开发的ROST-CM等。  

7、2.停用词过滤9  在文本处理中,有一些词出现频繁但意义不大,为了提高文本的分析速度和精度,须将这些词忽略。比如,“的”、“在”、“是”等几乎是中文文本中出现频率最高的词,这类词对文本相似度的计算会产生不良的干扰。对于这类问题的解决,可以利用现有的“中文停用词表”将这些词进行过滤删除。但是较为精确的方法是计算文本中每个词的TF-IDF值,将TF-IDF值为0的词删除。  TF-IDF是用来评估某一词汇对于一个文件集或一个语料库中的其中一份文件的重要程度的统计方法。词汇的重要性随着

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。