基于CHI的卷积神经网络中文文本分类算法研究及应用

基于CHI的卷积神经网络中文文本分类算法研究及应用

ID:17603308

大小:920.16 KB

页数:61页

时间:2018-09-03

基于CHI的卷积神经网络中文文本分类算法研究及应用_第1页
基于CHI的卷积神经网络中文文本分类算法研究及应用_第2页
基于CHI的卷积神经网络中文文本分类算法研究及应用_第3页
基于CHI的卷积神经网络中文文本分类算法研究及应用_第4页
基于CHI的卷积神经网络中文文本分类算法研究及应用_第5页
资源描述:

《基于CHI的卷积神经网络中文文本分类算法研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10459学号或申请号201522172212密密级专业硕士学位论文基于CHI的卷积神经网络中文文本分类算法研究及应用作者姓名:金星导师姓名:周清雷教授专业学位名称:计算机技术培养院系:信息工程学院完成时间:2018年5月AdissertationsubmittedtoZhengzhouUniversityforthedegreeofMasterResearchanditsApplicationonChineseTextCategorizationAlgorithmBasedonCHIandConvolutionalNeuralNe

2、tworkByXingJinSupervisor:QingleiZhouComputerTechnologySchoolofInformationEngineeringMay,2018摘要随着互联网技术的飞速发展和传播,互联网资源容量和类型呈现爆炸性增长。互联网资源多数以文本形式存在,面对不计其数的海量信息,如何有效管理和利用,从中发现有价值的信息,是当前研究的热点。文本分类技术是一个包括信息检索、机器学习和自然语言处理的多领域技术,是信息处理和数据挖掘的重要研究方向。人工特征工程加浅层分类器结合了文本分类和统计机器学习,是一种经典的文本分

3、类方法。然而,这种统计机器学习方法需要人工特征工程,非常耗时耗力。卷积神经网络模型CNN能在训练过程中自动提取特征;可以捕获文本特征局部信息;避免陷入局部最优解,从初始数据,经过一个隐藏端到端模型,直接输出最终的分类结果,极大地增加了获得全局最优解的可能。然而,CNN模型的黑盒建模性质,使得CNN模型变得难以解释。文本分类领域CHI(χ2统计量)特征选择+SVM分类器方法需要人工特征工程,容易陷入局部解,而CNN模型黑盒性质又难以解释。针对以上问题,本文借助启发式方法和加权融合思想,结合两种模型的优势,借鉴CHI特征选择的先验知识对文本分类

4、的有效性、CNN模型可以识别文本特征局部相关性的优势以及无需人工干预自动提取特征的强大能力,将传统CHI特征选择加入卷积神经网络隐藏黑箱,以期增强卷积神经网络CNN的分类能力,解释卷积神经网络CNN特征选择黑盒过程。因此本文提出了一种结合传统特征选择方法和深度学习的算法——基于CHI的卷积神经网络中文文本分类模型C-CNN,该模型借助谷歌开源机器学习平台TensorFlow并在智能医疗问答系统中得到应用。本文最后还设计了相关实验进行验证,最终验证了文本分类算法C-CNN的准确性有很大提高。关键词:文本分类CHI特征选择卷积神经网络智能医疗问

5、答系统IAbstractWiththerapiddevelopmentandspreadofInternettechnology,thecapacityandtypeofInternetresourcesaregrowingexplosively.MostoftheInternetresourcesexistintextform,facingcountlessmassesofinformation,howtoeffectivelymanageanduseit,andfindvaluableinformationfromwhichisahot

6、andimportantresearchdirection.TextCategorizationtechnologyisamulti-domaintechnologyincludingInformationRetrieval,MachineLearningandNaturalLanguageProcessing.ItisanimportantresearchdirectionforInformationProcessingandDataMining.ArtificialFeatureEngineeringandshallowlayercla

7、ssifiercombineTextCategorizationwithStatisticalMachineLearningmethods,aclassicaltextcategorizationmethod.However,ThisstatisticalMachineLearningmethodsrequiremanualfeatureengineering,whichistime-consumingandlabor-intensive.TheCNNTextCategorizationmodelcanautomaticallyextrac

8、tfeaturesduringthetrainingprocess,itcancapturelocalfeaturesoftextfeatures,avoidingfalling

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。