基于关键词提取的TFIDF和TextRank方法的对比研究

基于关键词提取的TFIDF和TextRank方法的对比研究

ID:41690255

大小:121.27 KB

页数:31页

时间:2019-08-30

基于关键词提取的TFIDF和TextRank方法的对比研究_第1页
基于关键词提取的TFIDF和TextRank方法的对比研究_第2页
基于关键词提取的TFIDF和TextRank方法的对比研究_第3页
基于关键词提取的TFIDF和TextRank方法的对比研究_第4页
基于关键词提取的TFIDF和TextRank方法的对比研究_第5页
资源描述:

《基于关键词提取的TFIDF和TextRank方法的对比研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于关键词提取的TFIDF和TextRank方法的对比硏究题目:开发一个程序,在该程序屮,允许输入一段文木(以界面或者文件输入方式均nJ'),该程序H动抽取出包含的关键词,并按照关键词的权重rti高到低排序后输出。完成口期:2016.06.05—、需求分析1.以文本的形式读入数据,将每个单词抽彖成一棵树,将单词与单词Z间的关系抽象为图。2.TFTDF算法部分以EXCEL形式将所有数据输出,TextRank算法部分直接以窗口形式输出排名前H立的数据。3.木程序的目的是在提取文木关键词的同时,比较TFDIF和TextRank算法的准确性和性能方面的差异。4.测试数据(附后)

2、。二、概要设计1.抽象数据类型映射树定义如下:ADTMap{数据对象ID:ID是类型为char的元索集合,即为一个单词中的单个字符,称为字符集。数据対象val:val是类型为double或int的元素集合,为每个单-词对应的TF值或1DF值,称为频率集。数据对象is_end:is_end是类型为bool的元索集合,判断当前子结点是否为单词末尾数据关系R:R={IDVal}TI)Val={word->num

3、word6TI),numEval,表示从word至ljnumZ间的一一映射}运算符重载:下标运算符[]:运算对象为String值,返冋对应string值的了树所代表的

4、val值。算术运算符乞运算对彖为double或int值,等式左值的vol值替换为等式右值,并返冋当前子树。算术运算符+-*/:运算对象为double或int.值,对其val值进行运算,并返回当前子树。相等运算符=和!二:运算对象为val值,判断其val值是否相等,返回对应的bool值。基本操作:InitMap(&T);操作结果:构造空树。DestroyMap(&T);初始条件:树T存在。操作结果:构造空树。CreateMap(&T,word);初始条件:树T存在且word为string值。操作结果:按照word的字符顺序自上而下遍历,如果有字符结点未创造,则构造新子结点

5、,直到字符结束。MapEmpty(T);初始条件:树T存在。操作结果:若T为空树,则返冋True,否则False。MapDepth(&T);初始条件:树T存在。操作结果:返回树的深度。Root(&T);初始条件:树T存在。操作结果:返回T的根。Value(&T,value);初始条件:树T存在,value为T中某个结点的值。操作结果:返冋value的值。Assign(&T,word,value);初始条件:树T存在,Rword结点也存在。操作结果:结点word的value值替换为当前valueoParent(&T,word);初始条件:树T存在,且word结点也存在。操

6、作结果:返冋word结点的双亲。InsertWord(&T,word);初始条件:树T存在。操作结果:往树加入word值,并将其value值默认初始化。DeletcChild(&T,word);初始条件:树T存在,且word结点也存在。操作结果:将word对应子节点的is_end值改为false。TraverseMap(&T,visit());初始条件:树T存在,visit是对结点操作的应用函数。操作结果:按某种次序对T的每个结点调用visit一次口至多一次。一旦visit失败,则操作失败。}ADTMap1.抽象数据类型图定义如下ADTGraph{数据对象mn是具有相同

7、特征的数据元素集合,称为顶点集。数据关系:DR二{〈v,w>

8、v,wen且〈v,w>表示从v指向w的弧}基本操作:CreateGraph(&G,V,VR);初始条件:V是图的顶点集,VR是图屮弧的集合操作结果:按V和VR的定义构造图GDestroyGraph(&G);初始条件:图G存在操作结果:销毁图GLocateVex(G,u);初始条件:图G已存在,u和G中顶点有相同特征操作结果:若G中存在顶点u,则返回该顶点在图中位置,否则返回其它信息GetVex(G,v);初始条件:图G存在,v是G屮某个顶点操作结果:返回v的值PutVcx(&G,v,value);初始条件:图

9、G存在,v是G中某个顶点操作结果:对v赋值valueFirstAdjVex(G,v);初始条件:图G存在,v是G中某个顶点操作结果:返冋v的第一个邻接顶点。若顶点在G中没有邻接顶点,则返回“空”NextAdjVex(G,v,w);初始条件:图G存在,v是G小某个顶点,w是v的邻接顶点操作结果:返回v的(相对于w的)下一个邻接顶点。若w是v的最后一个邻接点,贝U返回〃空”InsertVex(&G,v);初始条件:图G存在,v和G小顶点有相同特征操作结果:在图屮增添新顶点vDeleteVex(&G,v);初始条件:图G存在,v是G中某个顶点操

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。