改进TF_IDF算法的文本特征项权值计算方法.pdf

改进TF_IDF算法的文本特征项权值计算方法.pdf

ID:52768256

大小:855.82 KB

页数:6页

时间:2020-03-30

改进TF_IDF算法的文本特征项权值计算方法.pdf_第1页
改进TF_IDF算法的文本特征项权值计算方法.pdf_第2页
改进TF_IDF算法的文本特征项权值计算方法.pdf_第3页
改进TF_IDF算法的文本特征项权值计算方法.pdf_第4页
改进TF_IDF算法的文本特征项权值计算方法.pdf_第5页
改进TF_IDF算法的文本特征项权值计算方法.pdf_第6页
资源描述:

《改进TF_IDF算法的文本特征项权值计算方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第57卷第3期2013年2月*改进TF-IDF算法的文本特征项权值计算方法■路永和李焰锋[摘要]首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inversedocumentfrequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。

2、[关键词]文本分类TF-IDF特征权重类别区分[分类号]TP3911引言中往往比在短文档中出现的频数更大,这就往往会影响到分类的效果。比较有效的几种标准化方式是Web信息的快速增长使得寻找所需要信息的难度LogTF和使用特征词在文档中的频率代替特征词在文加大,文本分类作为处理大量文本数据的关键技术,可档中的频数等。以在一定程度上解决信息快速增长带来的一些问题。数据集关于类别的分布往往是偏斜(skewed)的,向量空间模型VSM(vectorspacemodel)是目前文本分类即不同类别的文档数可能存在数量级的差距,这将严中最常用的文本表示方法之一。VSM的基本思想是用重影响TF

3、-IDF的权重计算结果[2]。因为IDF在计算词袋法表示文本,将每个特征词作为向量空间坐标系的特征项权重时涉及到文档总数,而如果文档集中各类一维,文本被形式化为多维向量空间中的一个向量,文文档数目不均衡,IDF的效果就会受到影响。针对数[1]本之间的相似度用两个向量间的夹角衡量。也就是据集偏斜,B.C.How和K.Narayanan提出了CTD说,这个模型把对文本内容的处理简化为向量空间中的[3](categorytermdescriptor),以此来减弱类别数据集偏向量运算,并且它以空间上的相似度来表达语义的相似斜带来的影响。度。当文档被表示为文档空间的向量时,就可以通过计如

4、果一个特征词在某个类频繁出现,而在其他类算向量之间的相似性来度量文档间的相似性。中却极少出现,这样的词应该是具有更高权重的,然而在向量空间模型中,将文本表示单元(特征词)转根据IDF定义,这样的词却极有可能被赋予较低的权换为向量通常使用的权重计算方法是TF-IDF(term重,这就是IDF的不足之处。针对该不足,国内外学者frequency-inversedocumentfrequency)方法。在一定程多从特征词在类内均匀和类间集中的分布出发对其进[1]度上,这个方法能有效地表示一个特征词在文本中区行改进,如台德艺等的TF-IIDF-DIC权重函数,沈[4][5]分文本属性的

5、重要程度,但其理论依据存在不足。志斌等的BOR-TFI-DF权重函数,张瑜等的WA-[6][7]20世纪90年代,国内外学者都开始关注TF-DI-SI算法,苏丹等的TF-LDF算法,DengZhihongIDF在文本分类中的应用,并针对其缺陷,对其进行等提出的代替IDF的CRF(categoryrelevancefactors)过改进。总的来说,国内外学者对文本分类中TF-等。还有学者考虑以特征选择评估函数作为权重来修[8]IDF的改进方向多为TF的改进、数据集偏斜和类区正特征词的权重,如赵小华等的TF-IDF-CHI算法,[9]分能力的改进。李原等的引入信息熵IG来改进TF-

6、IDF算法等。从文档长度的角度出发,同一个特征词在长文档本文将同时考虑特征词的重要性(以特征选择评*本文系国家高技术研究发展计划(863计划)资助项目“农产品全供应链多源信息感知技术与产品开发”(项目编号:2012AA101701)和广东省哲学社会科学十二五规划项目“我国农民信息需求特征及其获取渠道实证研究”(项目编号:GD11CTS04)研究成果之一。[作者简介]路永和,中山大学资讯管理学院副教授,E-mail:zsuluyonghe@163.com;李焰锋,中山大学资讯管理学院硕士研究生。收稿日期:2012-10-12修回日期:2012-12-24本文起止页码:90-95本

7、文责任编辑:高丹90第57卷第3期2013年2月估函数来描述)和类内类间分布,并用较精简的函数来2.2TF-IDF-CHI[8]描述特征词的类内类间分布,从而使其更容易在实际考虑到每个特征词对每个类的贡献不同,赵小华中得到应用。然后,以此函数模型进行实际的文本分等应用TF-IDF-CHI来修正每个特征词的权重,重新调[10]类实验,验证其可行性和有效性。整了每个特征词对类区分的贡献程度。同样,张爱华等认为特征选择函数能够起到过滤噪音特征,增加分类2常见特征权重算法分析效果鲁棒性的作用,对于有

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。