利用c#提取文本关键词

利用c#提取文本关键词

ID:8997603

大小:69.00 KB

页数:8页

时间:2018-04-14

利用c#提取文本关键词_第1页
利用c#提取文本关键词_第2页
利用c#提取文本关键词_第3页
利用c#提取文本关键词_第4页
利用c#提取文本关键词_第5页
资源描述:

《利用c#提取文本关键词》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、1.2.原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数3.2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值4.3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词测试输入如下5.================================6.a 奥运 拳击 入场券 基本 分罄 邹市明 夺冠 对手 浮出 水面7.a 股民 要 清楚 自己 的 目的8.a 印花税 之 股民 四季9.a ASP

2、.NET 自定义 控件 复杂 属性 声明 持久性 浅析10.a 运动员 行李 将 “后 上 先 下” 奥运 相关 人员 行李 实名制11.a asp.net 控件 开发 显示 控件 内容12.a 奥运 票务 网上 成功 订票 后 应 及时 到 银行 代售 网点 付款13.a 某 心理 健康 站 开张 后 首 个 咨询 者 是 位 新 股民14.a 残疾 女 青年 入围 奥运 游泳 比赛 创 奥运 历史 两 项 第一15.a 介绍 一 个 ASP.net MVC 系列 教程16.a 在 asp.net 中 实现 观察者 模式 ,或 有 更 好 的 方

3、法 (续)17.a 输 大钱 的 股民 给 我们 启迪18.a Asp.Net 页面 执行 流程 分析19.a 杭州 股民 放 鞭炮 庆祝 印花税 下调 20.================================21.数据还是昨天的数据,但每个文章前面都加了个a,所以这个词的IDF肯定很低,如果单村用词频来提取关键词,这个a肯定被当场关键词了,所以要乘以IDF值来调整特征提取的精度。我们要用程序把上面的文档分成3类,并提取每个类的两个关键词22.我给TFIDFMeasure类加了一个GetKeyword的方法,第一个参数是传入几个文档i

4、d列表,第二个参数是要在这几个文档里提取几个关键词,下面是使用该方法的代码23.24.//4、初始化k-means算法,第一个参数表示输入数据,第二个参数表示要聚成几个类25.WawaKMeans kmeans = new WawaKMeans(data, K);26.//5、开始迭代1.kmeans.Start();2.3.//6、获取聚类结果并输出4.WawaCluster[] clusters = kmeans.Clusters;5.StringBuilder sb = new StringBuilder();6.foreach (WawaC

5、luster cluster in clusters)7.{8.    List members = cluster.CurrentMembership;9.    10.    //获取该聚类的关键词并打印11.    IEnumerable keywords = tf.GetKeyword(cluster.CurrentMembership, 2);12.    StringBuilder sbTemp = new StringBuilder();13.    sbTemp.Append("---------");14

6、.    foreach (string s in keywords)15.    {16.        sbTemp.AppendFormat("{0},", s);17.    }18.    sbTemp.Append("-------/r/n");19.    Console.WriteLine(sbTemp);20.21.    //打印该聚类的成员22.    sb.Append(sbTemp.ToString());23.    foreach (int i in members)24.    {25.        Console

7、.WriteLine(docs);26.        sb.AppendFormat("{0}/r/n", docs);27.    }28.}29.30.31.再看GetKeyword方法的实现32./// 

33./// 获取某组文档的关键词34./// 1./// 2./// 3./// 4.public IEnumerable GetKeywo

8、rd(List arr, int count)5.{6.    //1、给每个文档分词并保存在一个列表里7.  

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。