文本挖掘核心技术与应用

文本挖掘核心技术与应用

ID:39516867

大小:4.32 MB

页数:31页

时间:2019-07-04

文本挖掘核心技术与应用_第1页
文本挖掘核心技术与应用_第2页
文本挖掘核心技术与应用_第3页
文本挖掘核心技术与应用_第4页
文本挖掘核心技术与应用_第5页
资源描述:

《文本挖掘核心技术与应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、文本挖掘核心技术及其应用2目录文本挖掘步骤文本挖掘功能文本挖掘应用3文本挖掘步骤文本挖掘的一般处理过程特征的建立特征集的缩减学习与知识模式的提取知识模式模式质量的评价文档集4文本源原始数据预处理过滤虚词合并词根分词特征表示计算权值合并特征过滤特征特征提取权值调整特征约减文本挖掘文本分类文本聚类关联分析模式提取分类模式聚类模式关联规则结果展示展示界面文本挖掘步骤5文本挖掘主要功能及应用文本挖掘应用实现功能自动分词文档归类自动分类自动聚类信息抽取文本相似性检索自动摘要舆情监控垃圾邮件过滤企业竞争情报系统电子商务客户自动问答6目录文本挖掘步骤文本挖掘功能文本挖掘应用7自动分词8自动分

2、类莫言对话杨振宁:来生学物理,当下梦飞天时政社会军事评论文化国际历史9自动聚类自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成主题词,为用户确定类目名称提供方便。文本1文本2文本3文本4文本5…………类别1:关键词:比赛、赛季、联赛、球队、比分、太阳、NBA、球员队员、领先类别2:关键词:旅游、黄金、游客、记者、旅行社、中国、国家、假日、北京、线路类别3:关键词:公司、企业、招聘、面试、求职、专业、职业、学生、大学、人才10信息抽取信息抽取是从文本中抽取指定的一类信息(事件、事实)并将其形成结构化的数据,填入一个数据库中以供用户查询使用。会议时间199

3、8年3月9日会议地点北京会议召集者/主持人个人姓名/团体名称Name蒋正华机构、职位Org/Post主席,农工民主党中央会议名称/标题中国农工民主党第十二届中央常务委员会第一次会议11信息抽取12文本相似性检索文本相似性检索式对一篇文档到索引库中查找与其内容重复率高的文档和相似的文档。目前应用最广的是论文查重。13自动摘要对文章中的所有句子进行权值运算,对所有的句子按权值排列,提取出权值大的作为关键句,进而形成摘要。14目录文本挖掘步骤文本挖掘功能文本挖掘应用15应用——文档自动归类文本源原始数据预处理过滤虚词合并词根分词特征表示计算权值合并特征过滤特征特征提取权值调整特征约减

4、文本挖掘文本分类模式提取分类模式结果展示展示界面16应用——文档自动归类17应用——垃圾邮件过滤商家利用电子邮件传播大量广告垃圾邮件持续攀升逐一查看邮件浪费时间面临的问题对垃圾邮件进行过滤对邮件进行归类邮件自动回复关键需求18应用——网络舆情监控互联网的普及,网络舆论热点层出不穷;民意表达向网络倾斜;网络舆论一旦被错误控制和引导,影响社会稳定;面临的挑战舆情信息的采集与提取话题发现与追踪网络舆情倾向性分析关键需求20论坛新闻引擎垂直页面采集和提取博客应用——网络舆情监控难点热点分析21应用——网络舆情监控♥所采集的网络范围内重复程度最高的话题22应用——网络舆情监控网络舆情摘要

5、♥提取出几条最重要的新闻,自动生成摘要,生成简报。23倾向性分析自动聚合网络新闻并自动进行褒贬倾向性的分析。对文章的观点进行倾向性分析和统计,识别正负面信息。应用——网络舆情监控24通过对网络信息中的犯罪信息量的分析计算来反映网民的安全感,并进行分级;通过对政府工作相关语料的褒贬分析计算来描述公众对政府工作的满意程度,并进行分级。——网络舆情监控应用25应用——企业竞争情报系统企业情报采集效率低和实时性差信息孤岛,缺少跨部门情报资源共享情报内容存在重复性,资源没有得到有效整合面临的问题自动化收集商业信息对情报内容进行统一管理根据情报内容,确定潜在威胁,及时预警,并制定相应策略关

6、键需求26应用——企业竞争情报系统伊利作为中国乳业巨头之一,面临多方竞争,必须密切关注对手动态,其最大的竞争对手是蒙牛,因此,蒙牛公司的动态对伊利公司有很大的影响。采集2010年6月至11月蒙牛官网的信息,对其进行分析。6月词频量7月词频量8月词频量9月词频量10月词频量11月词频量合作869107104君乐宝00000140激增词频警报递增词频警报6月词频量7月词频量8月词频量9月词频量10月词频量11月词频量奶源971722295827发现共线词关系:君乐宝—低温;华北;蒙牛—奶源,奶源—君乐宝警情:蒙牛整合君乐宝,实现战略合作警情分析:整合事件极大程度转变蒙牛低温市场地位

7、,并提升蒙牛竞争力,对伊利构成极大威胁;提升蒙牛在华北地位,威胁伊利华北市场战略地位;极大提升蒙牛奶源优势,对伊利在奶源的竞争造成威胁。应用——企业竞争情报系统28——电子商务网站应用数据激增,且有大量的非结构化数据如何从大量数据中发现有价值的客户挖掘其内在规律面临的问题分析商品之间的内在关联发现有价值客户对用户行为进行预测关键需求——电子商务网站应用网站产品评论挖掘:IT168网站是中国指导IT产品采购的知名媒体品牌,是国内最大、最权威的导购咨询网站之一。从IT168网站下载三种产品的评论

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。