中文文本特征选择方法研究综述

中文文本特征选择方法研究综述

ID:22533415

大小:84.79 KB

页数:7页

时间:2018-10-30

中文文本特征选择方法研究综述_第1页
中文文本特征选择方法研究综述_第2页
中文文本特征选择方法研究综述_第3页
中文文本特征选择方法研究综述_第4页
中文文本特征选择方法研究综述_第5页
资源描述:

《中文文本特征选择方法研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中文文本特征选择方法研究综述徐泓洋杨国为青岛大学电子信息学院摘要:针对文木的分析研宄中,根据分析目标的不同可归纳为文木分类和情感分析两种类型,在某些情况下,情感分析也可以被看作是一种特殊的文本分类问题。文本分类的一火特征是过高的向量维数,因此特征降维是文本分类的一火核心问题,而特征选择是特征降维的核心技术之一。归纳总结了中文文本分类和情感分析中常见的特征选择方法,分析各种方法的原理,指出其优缺点,并总结近年来相应算法改进情况。关键词:文本分类;情感分析;将征选择;收稿日期:2017.6.22ReviewofFeatur

2、eSelectioninChineseTextAnalysisAbstract:ThispapersummarizescommonfeatureselectionmethodsintextclassificationandsentimentanalysisofChineseversion,andanalysistheprincipleofvariousmethods,pointsoutitsadvantagesanddisadvantages,andtheimprovedalgorithminrecentyearsar

3、cconclude.Keyword:textcategorization;sentimentanalysis;featureselection;Received:2017.6.22文本分类(TextCategorization)是指根据文本的内容将大量的文本归到一个或者多个类别的过程。情感分析(SentimentAnalysis)也称文本倾向性分析,一般分为情感极性分类和情感信息抽取两类。情感分析也可看作是一种特殊的文本分矣问题。向量空间模型(VectorSpaceModel,VSM)是目前文本分笑和情感分析中文本表示

4、的主要方法,这种方法的基本思想是以向量来表示文本:(WHw2,…,WJ,其中Wi为第i个特征项的权重,它的特点是文本向量的位数很高,通常一个文木向量可以达到数万维的量级,过高的向量维数是文木分析的一大问题。特征降维是文本分析的核心技术之一,分为特征选择和特征抽取两种。特征选择指从一组特征中选择出一些最有效的特征以降低特征空间的维数的过程,其利用某种评价函数独立对每个原始特征项进行评估,然后将他们按评估值得高低顺序排序,从中选取若干个评估值最高的特征项。文本分类中常见的特征选择方法主要有文档频率、信息增益、互信息、CHT

5、统计、期望交叉熵、文本证据权、几率比等。本文将详细介绍这几种方法的原理,总结相应算法改进研宄情况。1常见特征选择方法文本特征选择方法的基本思想是对每一个特征计算某种统计度量值,然后设定一个阈值T,把度量值小于T的那些特征过滤掉,剩下的即为有效特征。1.1文档频率文档频率(DocumentFrequency,DF),即训练集文档中拥有茶个特征的文档数量与总文档数的比值。文档频率可表示为:式中Ft为出现特征t的文档数,D为文档总数。DF函数是最简单的评价函数,其特点是计算量小。DF方法的理论假设是出现频率小的特征所含的信息

6、量小,特征选择时偏重于高频词。ns1=1信息增益(InformationGain,IG)表示得知特征x的信息而使得矣ci的信息的不确定性减少的程度。信息增益定义为:特征x对类别Ci的信息增益TG(X,Ci),定义类(^的信息熵U(Ci)与特征x给定条件下的条件熵11(cjx)之差,即:类向量的熵如下:H(c)=-S/p(c/)fogp(c/)条件熵如下:H(clx)=Yyp(Xy)X/p(c//xy)logp^cJXj)特征X与类别C的信息增益越大,说明特征X包含的与类别C有关的鉴别信息就越多。1.3互信息互信息(Mu

7、tualInformation,MI)是信息论中的概念,用于衡量两个变量之间的关联程度。某个特征x在某个类别Ci中出现的概率高,在其它类别中出现的概率低吋,特征x与类别x会有较高的互信息值。定义特征x与类别C

8、的互信息公式为MI(X,Ci):1.4CHI统计方法CHI统计(chi-squarestatistic,CHI)特征选择方法乂被称作开方拟合检验(CHI-test)。CHI统计方法度量文木特征x和文档类别c之间的相关程度,特征对于类别c的卡方统计值越高,它与该类之间的额相关性就越大,携带的类别信息也就越多。如果x

9、与c之间相互独立,那么文本特征x的C11I估计值为零。CH1统计量定义如下:CHI(x,c)=D.P(x).P(x).P(c).P(c)1.5期望交叉;t期望交叉熵(ExpectedCrossEntropy,ECE)与信息增益类似,但不同于信息增益对特征项属性的计算,期望交叉熵只计算出现在文木中的特征项,未出现的特征则不予考虑,评

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。