文本关键词提取(TFIDF和TextRank).docx

文本关键词提取(TFIDF和TextRank).docx

ID:57440539

大小:83.34 KB

页数:27页

时间:2020-08-16

文本关键词提取(TFIDF和TextRank).docx_第1页
文本关键词提取(TFIDF和TextRank).docx_第2页
文本关键词提取(TFIDF和TextRank).docx_第3页
文本关键词提取(TFIDF和TextRank).docx_第4页
文本关键词提取(TFIDF和TextRank).docx_第5页
资源描述:

《文本关键词提取(TFIDF和TextRank).docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于关键词提取的TFIDF和TextRank方法的对比研究题目:开发一个程序,在该程序中,允许输入一段文本(以界面或者文件输入方式均可),该程序自动抽取出包含的关键词,并按照关键词的权重由高到低排序后输出。完成日期:2016.06.05一、需求分析1.以文本的形式读入数据,将每个单词抽象成一棵树,将单词与单词之间的关系抽象为图。2.TFIDF算法部分以EXCEL形式将所有数据输出,TextRank算法部分直接以窗口形式输出排名前十位的数据。3.本程序的目的是在提取文本关键词的同时,比较TFDIF和TextRank算法的准确性和性能方面的差异。4.测试数据(附后)。二、概要设计1.抽象数据类

2、型映射树定义如下:ADTMap{数据对象ID:ID是类型为char的元素集合,即为一个单词中的单个字符,称为字符集。数据对象val:val是类型为double或int的元素集合,为每个单词对应的TF值或IDF值,称为频率集。数据对象is_end:is_end是类型为bool的元素集合,判断当前子结点是否为单词末尾数据关系R:R={IDVal}IDVal={word–>num

3、word∈ID,num∈val,表示从word到num之间的一一映射}运算符重载:下标运算符[]:运算对象为string值,返回对应string值的子树所代表的val值。算术运算符=:运算对象为double或int值,

4、等式左值的val值替换为等式右值,并返回当前子树。算术运算符+-*/:运算对象为double或int值,对其val值进行运算,并返回当前子树。相等运算符==和!=:运算对象为val值,判断其val值是否相等,返回对应的bool值。基本操作:InitMap(&T);操作结果:构造空树。DestroyMap(&T);初始条件:树T存在。操作结果:构造空树。CreateMap(&T,word);初始条件:树T存在且word为string值。操作结果:按照word的字符顺序自上而下遍历,如果有字符结点未创造,则构造新子结点,直到字符结束。MapEmpty(T);初始条件:树T存在。操作结果:若T为

5、空树,则返回True,否则False。MapDepth(&T);初始条件:树T存在。操作结果:返回树的深度。Root(&T);初始条件:树T存在。操作结果:返回T的根。Value(&T,value);初始条件:树T存在,value为T中某个结点的值。操作结果:返回value的值。Assign(&T,word,value);初始条件:树T存在,且word结点也存在。操作结果:结点word的value值替换为当前value。Parent(&T,word);初始条件:树T存在,且word结点也存在。操作结果:返回word结点的双亲。InsertWord(&T,word);初始条件:树T存在。操作

6、结果:往树加入word值,并将其value值默认初始化。DeleteChild(&T,word);初始条件:树T存在,且word结点也存在。操作结果:将word对应子节点的is_end值改为false。TraverseMap(&T,visit());初始条件:树T存在,visit是对结点操作的应用函数。操作结果:按某种次序对T的每个结点调用visit一次且至多一次。一旦visit失败,则操作失败。}ADTMap1.抽象数据类型图定义如下ADT Graph{ 数据对象n:n是具有相同特征的数据元素集合,称为顶点集。 数据关系:DR={

7、v,w∈n且表示从v指向w的弧} 基

8、本操作: CreateGraph(&G, V,VR) ;初始条件:V是图的顶点集,VR是图中弧的集合 操作结果:按V和VR的定义构造图GDestroyGraph(&G);初始条件:图G存在 操作结果:销毁图G LocateVex(G, u);初始条件:图G已存在,u和G中顶点有相同特征 操作结果:若G中存在顶点u,则返回该顶点在图中位置,否则返回其它信息 GetVex(G, v); 初始条件:图G存在,v是G中某个顶点 操作结果:返回v的值 PutVex(&G, v, value); 初始条件:图G存在,v是G中某个顶点 操作结果:对v赋值value FirstAdjVex(G, v);初

9、始条件:图G存在,v是G中某个顶点 操作结果:返回v的第一个邻接顶点。若顶点在G中没有邻接顶点,则返回“空” NextAdjVex(G, v, w);初始条件:图G存在,v是G中某个顶点,w是v的邻接顶点 操作结果:返回v的(相对于w的)下一个邻接顶点。若w是v的最后一个邻接点,则返回"空” InsertVex(&G, v);初始条件:图G存在,v和G中顶点有相同特征 操作结果:在图中增添新顶点v DeleteVex(&

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。