采用TFIDF自动对文本进行形式化

ID：38700742

大小：197.00 KB

页数：8页

时间：2019-06-17

资源描述：

《采用TFIDF自动对文本进行形式化》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、试验报告实验名称：采用TFIDF自动对文本进行形式化第1章试验目的1．加深对文本形式化的理解，掌握文本形式化的方法。2．熟练掌握TFIDF算法，掌握如何计算权值（wij）。3．在理解TFIDF算法基础下，编写程序实现该算法。4．对某方面的文本运用该算法计算，并分析结果。第2章试验的软硬件平台硬件配置：pc机系统软件：Windows2000sp4工具软件：MicrosoftVisualStudio6.0第3章试验数据说明根据试验要求，本试验有两种输入数据。输入数据之一：面向某个领域的文本集。取自MIT-PrinciplesofDataMining.pdf的第5页至第24页，

2、共计20页内容。每页内容作为一个文本，这样文本集中的文本数量为20。这20个文档存储在text目录下。文本命名：p00.txt，p01.txt,……,p19.txt。输入数据之二：文本形式的术语集。该术语集存储在text目录下vo.txt中，每行一个术语（词汇）。可自行编辑。输出数据：文本集的矩阵表示。程序运行当前目录下输出文本mm.txt。矩阵格式说明：文档编号总词数词汇权值词出现次数文档频率文档编号0661词汇A0.01601842词汇B0.0042142318……………………文档编号1713词汇A………………词汇B………………………………………………………………文档

3、编号n599词汇A………………词汇B……………………………………（注：词出现次数——词在该文档中出现次数，文档频率——词在几篇文档中出现，权值精确到小数点后六位。）第4章试验内容一、实验设计方案1、算法及相关公式说明TFIDF（termfrequency/inversedocumentfrequency）的概念被公认为信息检索中最重要的发明。在搜索、文献分类和其他相关领域有广泛的应用。IDF的概念就是一个特定条件下、关键词的概率分布的交叉熵（Kullback-LeiblerDivergence）TFIDF算法建立在这样假设之上的:对区别文档最有意义的词语应该是那些在文档中

4、出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。词频TermFrequency（tfij）：文档i中词汇j出现的频率。本试验中，某个文档中某词频的计算采用如下公式：tfij=词汇j在文档i中出现的次数/文档的总词数。需要说明的是，文

5、档的总词数统计含重复出现的词汇，例如，本试验中“inSchoolsinAmerica”总词数计为4。文档频率DocumentFrequency(dfj)：多少个文档包含词汇j。tfidf权值（wij）：wij=tfij*log(d/dfj)其中d是文档的数目。本试验中文档数目为20，即d=20。本试验的算法实现并没有考虑词频的归一化处理。2、程序流程设计：二、详细试验过程1、程序设计实现学习tfidf的相关知识，在此基础上理解公式，编写算法实现程序。程序计算文本集中所有出现的单词的tfidf权值Wij。在不输入术语集的情况下，输出所有单词的权值。在输入术语集的情况下，仅输

6、出给定术语的权值。structTtree{chardata[20];doubleweight;doublenum;//一篇文献中的某一索引词出现的次数doublemax;//一篇文献的总词数doublen;//索引词出现在几个文档中structTtree*lchild;//左儿子structTtree*rchild;//右儿子};数据结构：试验程序设计采用二叉树的链式存储作为文本集存储的数据结构。权值排序示例画树形图权值从大到小依次为：左儿子节点——节点——右儿子节点主要函数：Ttree*createTtree(Ttree*root,FILE*fp)创建二叉树用来存放单词

7、，以及该词在文档中出现的次数/计算词频Ttree*SearchBinTtree(Ttree*rootx,Ttree*rooty)voidInMidThread(Ttree*rooty,Ttree*rootx)计算文档频率——词在几篇文档中出现voidInThread(Ttree*root,Ttree*Mroot)计算权值voidweight(Ttree*root)对权值进行排序，二叉树节点插入过程boolin(chardata[20])判断某词是否在词汇集中voidThreadWeight(Ttree*root)权值输出，从大

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 8



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

采用TFIDF自动对文本进行形式化

采用TFIDF自动对文本进行形式化

相关文章

相关标签