采用TFIDF自动对文本进行形式化

采用TFIDF自动对文本进行形式化

ID:38700742

大小:197.00 KB

页数:8页

时间:2019-06-17

采用TFIDF自动对文本进行形式化_第1页
采用TFIDF自动对文本进行形式化_第2页
采用TFIDF自动对文本进行形式化_第3页
采用TFIDF自动对文本进行形式化_第4页
采用TFIDF自动对文本进行形式化_第5页
资源描述:

《采用TFIDF自动对文本进行形式化》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、试验报告实验名称:采用TFIDF自动对文本进行形式化第1章试验目的1.加深对文本形式化的理解,掌握文本形式化的方法。2.熟练掌握TFIDF算法,掌握如何计算权值(wij)。3.在理解TFIDF算法基础下,编写程序实现该算法。4.对某方面的文本运用该算法计算,并分析结果。第2章试验的软硬件平台硬件配置:pc机系统软件:Windows2000sp4工具软件:MicrosoftVisualStudio6.0第3章试验数据说明根据试验要求,本试验有两种输入数据。输入数据之一:面向某个领域的文本集。取自MIT-PrinciplesofDataMining.pdf的第5页至第24页,

2、共计20页内容。每页内容作为一个文本,这样文本集中的文本数量为20。这20个文档存储在text目录下。文本命名:p00.txt,p01.txt,……,p19.txt。输入数据之二:文本形式的术语集。该术语集存储在text目录下vo.txt中,每行一个术语(词汇)。可自行编辑。输出数据:文本集的矩阵表示。程序运行当前目录下输出文本mm.txt。矩阵格式说明:文档编号总词数词汇权值词出现次数文档频率文档编号0661词汇A0.01601842词汇B0.0042142318……………………文档编号1713词汇A………………词汇B………………………………………………………………文档

3、编号n599词汇A………………词汇B……………………………………(注:词出现次数——词在该文档中出现次数,文档频率——词在几篇文档中出现,权值精确到小数点后六位。)第4章试验内容一、实验设计方案1、算法及相关公式说明TFIDF(termfrequency/inversedocumentfrequency)的概念被公认为信息检索中最重要的发明。在搜索、文献分类和其他相关领域有广泛的应用。IDF的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-LeiblerDivergence)TFIDF算法建立在这样假设之上的:对区别文档最有意义的词语应该是那些在文档中

4、出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。词频TermFrequency(tfij):文档i中词汇j出现的频率。本试验中,某个文档中某词频的计算采用如下公式:tfij=词汇j在文档i中出现的次数/文档的总词数。需要说明的是,文

5、档的总词数统计含重复出现的词汇,例如,本试验中“inSchoolsinAmerica”总词数计为4。文档频率DocumentFrequency(dfj):多少个文档包含词汇j。tfidf权值(wij):wij=tfij*log(d/dfj)其中d是文档的数目。本试验中文档数目为20,即d=20。本试验的算法实现并没有考虑词频的归一化处理。2、程序流程设计:二、详细试验过程1、程序设计实现学习tfidf的相关知识,在此基础上理解公式,编写算法实现程序。程序计算文本集中所有出现的单词的tfidf权值Wij。在不输入术语集的情况下,输出所有单词的权值。在输入术语集的情况下,仅输

6、出给定术语的权值。structTtree{chardata[20];doubleweight;doublenum;//一篇文献中的某一索引词出现的次数doublemax;//一篇文献的总词数doublen;//索引词出现在几个文档中structTtree*lchild;//左儿子structTtree*rchild;//右儿子};数据结构:试验程序设计采用二叉树的链式存储作为文本集存储的数据结构。权值排序示例画树形图权值从大到小依次为:左儿子节点——节点——右儿子节点主要函数:Ttree*createTtree(Ttree*root,FILE*fp)创建二叉树用来存放单词

7、,以及该词在文档中出现的次数/计算词频Ttree*SearchBinTtree(Ttree*rootx,Ttree*rooty)voidInMidThread(Ttree*rooty,Ttree*rootx)计算文档频率——词在几篇文档中出现voidInThread(Ttree*root,Ttree*Mroot)计算权值voidweight(Ttree*root)对权值进行排序,二叉树节点插入过程boolin(chardata[20])判断某词是否在词汇集中voidThreadWeight(Ttree*root)权值输出,从大

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。