第六章现代数据挖掘技术与发展1.3.ppt

第六章现代数据挖掘技术与发展1.3.ppt

ID:60904451

大小:5.29 MB

页数:45页

时间:2020-02-04

第六章现代数据挖掘技术与发展1.3.ppt_第1页
第六章现代数据挖掘技术与发展1.3.ppt_第2页
第六章现代数据挖掘技术与发展1.3.ppt_第3页
第六章现代数据挖掘技术与发展1.3.ppt_第4页
第六章现代数据挖掘技术与发展1.3.ppt_第5页
资源描述:

《第六章现代数据挖掘技术与发展1.3.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第六章现代数据挖掘技术与发展6.1知识挖掘系统的体系结构(1)知识发现是用一种简洁的方式从大量的数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。(2)知识发现可看成是一种价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它能通过全面的信息发现与分析,找到有价值的商业规则。(3)知识发现意味着数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。6.1.1知识发现技术的定义6.1.2知识发现系统的结构知识发现系统的结构由知识发现系统管

2、理器、知识库、商业分析员、数据仓库的数据接口、数据选择、知识发现引擎、知识发现评价、知识发现描述等部分组成。见图6-1。1.知识发现系统管理器知识发现系统管理器控制并管理整个知识发现过程。商业分析人员的输入和知识库中的信息用于驱动以下三个过程:(1)数据选择过程。(2)抽取算法的选择及使用过程。(3)发现的评价过程。2.知识库和商业分析员知识库包含源于各方面的知识。商件分析员将元数据输入数据仓库,描述数据仓库的数据结构、商业分析员还要在知识库中输入其他相关的数据知识(如应当注意的关键数据字段、分析中用于产生数据需求的商业规则、任何数据层次等)。其目的是按一种有

3、效的方式指导对关注性信息的发现。3.数据仓库的数据库接口知识发现系统利用数据库的查询机制,从数据仓库中抽取数据。对于关系数据库,可使用SQL查询语言。知识库中的数据仓库元数据指导数据库接口正确组织数据结构,并正确组织数据结构在数据仓库中存储的方式。为了提高效率,知识发现系统的数据库接口可以直接与数据仓库通信。4.数据选择数据选择构件可以确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构件,选择需要抽取的数据以及抽取方式。如果只需示例数据,数据选择构件必须有能力选择并抽取恰当的随机事例。此外,它还要选择算法所需要的数据类型,同时将数据类型输入算法。5

4、.知识发现引擎知识发现引擎将知识库中的抽取算法提供数据选择构件抽取的数据,其目的是抽取数据元素间的模式和关系。存储在知识库中的经验对发现抽取有重要的作用。许多数据挖掘算法可与知识发现系统结合,作为知识发现引擎,如数据依赖、分类规则、聚类、概括数据、偏差检查、归纳和模糊推理等。6.发现评价商业分析员需要寻找关注性的数据模式,以便了解顾客、产品、市场等等。数据仓库潜在地具有宿主模式。评价构件或过滤构件有助于商业分析员筛选模式,选出关注性的信息。用于分析关注性模式的技术包括统计的重点、覆盖级别的置信度因子,以及可视化分析。7.发现描述发现描述构件提供两种必须的功能。

5、一种是发现评价辅助商业分析员,在知识库中保存关注性的发现结果,以备引用和使用。另一种是保持发现与商业经理(或商业总经理)的通信。其目的是利用知识发现来理解业务模式,将此理解转化成可执行的建议。知识发现系统中的描述技术包括可视化导航和浏览、自然语言文本报告以及图表和图形。6.2现代数据挖掘技术及应用6.2.1规则型挖掘技术及应用1.关联规则的基本概念布尔关联规则,单层规则量化规则,单层规则多层关联规则SelectCust.name,P.item_nameFromPurchases,PGroupbyCust.IDHaving(Cust.age>=30andCust

6、.age<=40)And(Cust.income>=42000andCust.income<=50000)And(p.item_name=“high_resolution_TV”)2.关联规则的应用目标3.关联规则的算法1993年Apriori算法核心算法分成两步:(1)找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的称为k-项集(2)使用第(1)步找到的频集产生所期望的规则图6.2Apriori算法应用例子4.关联规则应用关联规则是知识挖掘中一种主要的挖掘技术,通过关联规则在数据仓库中的应用,可使人们了解各种事物发生的前因后果,使企业利用挖

7、掘的各种商业规则在市场竞争中获取优势。通常,关联规则用于值域的基数很高或有多个二值属性列的数据库。表6-1前件和后件规则中的正确率和覆盖率表6-2关联规则正确率和覆盖率的平衡表6.2.2神经网络型挖掘技术1.神经网络及其学习方法图6.3神经网络2.基于神经网络的数据挖掘1)基于自组织神经网络的数据挖掘技术2)模糊神经网络类型的数据挖掘技术模糊BP网络、模糊Kohonen网络、模糊推理网络和ART网络等。3.后向传播模型(BP)及其算法具体过程:(1)选定p个样本(2)权值初始化(随机生成);(3)依次输入样本;(4)依次计算各层的输出;(5)求各层的反传误差;

8、(6)按权值调整公式修正各权值和阀值;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。