文本挖掘与web数据挖掘.ppt

文本挖掘与web数据挖掘.ppt

ID:56373939

大小:751.00 KB

页数:81页

时间:2020-06-14

文本挖掘与web数据挖掘.ppt_第1页
文本挖掘与web数据挖掘.ppt_第2页
文本挖掘与web数据挖掘.ppt_第3页
文本挖掘与web数据挖掘.ppt_第4页
文本挖掘与web数据挖掘.ppt_第5页
资源描述:

《文本挖掘与web数据挖掘.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、第8章文本挖掘与Web数据挖掘文本挖掘Web数据挖掘>>案例五:跨语言智能学术搜索系统>>案例六:基于内容的垃圾邮件识别>>2021/7/308.1文本挖掘8.1.1分词8.1.2文本表示与词权重计算8.1.3文本特征选择8.1.4文本分类8.1.5文本聚类8.1.6文档自动摘要2021/7/308.1.1分词分词(词切分)是指将连续的字序列按照一定的规范重新组合成词序列的过程英文:单词之间以空格作为自然分界符,容易中文:词没有一个形式上的分界符,难中文分词极具挑战性的问题歧义切分问题:[研究/生]物;学生会

2、学生会玩魔方未登

3、录词问题:新词(木有、凡客体),人名等分词法主要分为以下三大类:基于词典的方法、基于统计的方法、基于语法分析的方法2021/7/30基于词典的分词法正向最大匹配从左开始算起,最大是指从一个设定的长度开始匹配,直到第一个匹配成功就切分成为一个词逆向最大匹配与正向最大匹配相似,区别在于从右至左匹配例子:研究生命起源正向匹配结果:研究生/命/起源逆向匹配结果:研究/生命/起源特点:简单,易实现;正确率受词典大小限制2021/7/30基于统计的分词法假设:词是稳定的单字组合,直观地,在上下文中,相邻的字同时出现的次数越多,就越有可能构

4、成一个词只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典(统计)分词法基于统计模型的分词方法是研究热点,如基于隐马尔可夫的方法、基于最大熵的方法特点:精度高、词性标注、命名实体识别;需要语料作支撑2021/7/30基于中文语法的分词方法通过让计算机模拟人对句子的理解,达到识别词的效果其基本思想就是在分词的同时进行句法、语义分析,利用句法和语义信息来处理歧义现象包括三个部分:分词子系统、句法语义子系统、总控部分特点:由于汉语语言知识的笼统、复杂性,基于理解的分词系统还处在试验阶段2021/7/30常见分词工具IC

5、TCLAS中国科学院计算技术研究所开发采用层叠隐马尔可夫模型中文分词,词性标注,命名实体识别,新词识别支持C/C++/C#/Delphi/Java等主流开发语言imdict-Chinese-analyzerICTCLAS中文分词程序基于Java的重新实现采用基于隐马尔科夫模型的方法直接为Lucene搜索引擎提供简体中文分词支持2021/7/30常见分词工具(续)IKAnalyzer采用特有的“正向迭代最细粒度切分算法”基于Java语言开发的轻量级开源分词工具包60万字/秒的高速处理能力简易中文分词系统SCWShightman个

6、人开发采用标准C开发提供C接口、PHP扩展(源码、WIN32的DLL文件)2021/7/30常见分词工具(续)盘古分词基于.netFramework的中英文分词组件中文未登录词识别、人名识别、多元分词等功能支持英文专用词识别、英文原词输出、英文大小写同时输出等单线程分词速度为390KB/s,双线程分词速度为690KB/s(CoreDuo1.8GHz)其它Paoding(庖丁解牛分词)、HTTPCWS、MMSEG4J以及CC-CEDICT等2021/7/308.1.2文本表示与词权重计算目前文本表示主要是采用向量空间模型(Vec

7、torSpaceModel,VSM)每个文本被表示为在一个高维词条空间中的一个向量词条权重wi,j一般采用TF×IDF方法来计算得到2021/7/308.1.3文本特征选择文本特征选择是根据某种准则从原始特征中选择部分最有区分类别能力的特征主要分为无监督和有监督的方法常用的方法有以下几种文档频率(DocumentFrequency,DF)单词权(TermStrength,TS)信息增益(InformationGain,IG)互信息(MutualInformation,MI)期望交叉熵(ExpectedCrossEntropy,

8、ECE)2021/7/30基于文档频率的方法文档频率是指所有训练文本中出现某个特征词的频率是一种无监督的方法通常会分别设置一个小的阈值和大的阈值来过滤一些低频词和频数特别高的词特点优点:简单、易行缺点:低频词有时能很好反映类别信息;忽略了特征词在文档中出现的次数2021/7/30基于信息增益的方法根据某个特征词t在一篇文档中出现或者不出现的次数来计算为分类所能提供的信息量,并根据该信息量大小来衡量特征词的重要程度,进而决定特征词的取舍信息增益是最常用的文本特征选择方法之一特点:该方法只考察特征词对整个分类的区分能力,不能具体到

9、某个类别上2021/7/308.1.4文本分类文本自动分类(简称“文本分类”)是在预定义的分类体系下,根据文本的特征(词条或短语),将给定文本分配到特定一个或多个类别的过程基本步骤可以分为三步:将预先分过类的文本作为训练集输入构建分类模型对新输入的文本进行分类常见的算法包括:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。