数据仓库课件

数据仓库课件

ID:44041472

大小:368.00 KB

页数:60页

时间:2019-10-18

数据仓库课件_第1页
数据仓库课件_第2页
数据仓库课件_第3页
数据仓库课件_第4页
数据仓库课件_第5页
资源描述:

《数据仓库课件》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第6章现代数据挖掘技术与发展本章学习目标:(1)通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构。(2)通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。(3)通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。(4)经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。现代数据挖掘技术与发展6.1知识挖掘系统的体系结构6.2现代挖掘技术及应用6.3知识发现工具与应用6.4数据挖掘技术的发展练习现代数据挖掘技术是指20世纪80年代末所出现

2、的数据挖掘技术,这些数据挖掘技术大多可以从数据仓库中提取人们所感兴趣的、事先不知的、隐藏在数据中的有用的信息和知识,并将这些知识用概念、规则、规律和模式等方式展示给用户,使用户得以解决信息时代中的“数据过量,信息不足”的矛盾。6.1知识挖掘系统的体系结构6.1.1知识发现的定义·知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。·知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商

3、业规则。·知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。通过以上定义,可以看出KDD(KnowledgeDiscoveryinDatabase)是从数据仓库中识别出有效的、新颖的、有潜在应用价值的以及最终可理解知识的一个复杂的数据处理过程。KDD是一门交叉学科,涉及到人工智能、机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化和专家系统等多个领域。6.1.2知识发现系统的结构知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图6.1)。数

4、据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器商业分析员图6.1知识发现系统结构1.知识发现系统管理器控制并管理整个知识发现过程。2.知识库和商业分析员知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。3.数据仓库的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。4.数据选择确定从数据仓库中需要抽取的数据及数据结构。5.知识发现引擎将知识库中的抽取算法提供给数据选择构件抽取的数据。6.发现评价有助于商业分析员筛选模式,选出那些关注性的信息。7.发现描述发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来

5、引用,并保持知识发现与管理人员的通信。6.2现代挖掘技术及应用6.2.1规则型现代挖掘技术及应用规则归纳是数据挖掘的一种主要形式,并且是无教师学习系统中最普通的知识发现形式。它也是与大多数人想象的数据挖掘过程最为相似的一种数据挖掘形式,即在大型数据库中“淘金”。数据挖掘中的现代挖掘技术按照其不同的技术特点,可以分成规则型、神经网络型、遗传算法型和粗糙集型等。1.关联规则的基本概念buys(x,“computer”)=>buys(x,“finacial_management_software”)(6.1)age(“30..40”)∧income(“42000..50000”)=>buy

6、s(x,“high_resolution_TV”)(6.2)布尔关联规则量化关联规则单维规则多维关联多层关联规则单层关联规则age(“30..40”)=>buys(x,“IBMcomputer”)(6.3)age(“30..40”)=>buys(x,“computer”)(6.4)在关联规则系统中,规则本身是“如果条件怎么样,那么结果或情况就如何”的简单形式,可以表示为“A=>B”关联规则,它包括两个部分:左部A称前件,右部B称为后件。前件可以包括一个或多个条件,在某个给定的正确率限制情况下,要使后件为真,前件中的所有条件必须同时为真。后件一般只包含一种情况,而不是多种情况。2.关联

7、规则的应用目标关联规则的应用必须有应用目标,在实际应用中可以以前件、后件、正确率、覆盖率或兴趣度等为目标。1、以前件为目标的关联规则是将前件等于某值的所有规则收集起来显示给用户。2、以后件为目标的关联规则是查找后件等于某值的所有规则,这样可以用来了解什么因素与后件有关或对后件有什么影响。3、以正确率为目标的关联规则,主要是以正确率表示当前件为真时,后件为真的可能性。正确率高表示规则比较可靠。正确率有时也称为置信度。4、以覆盖率为目标的关联规则表示数据库中适

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。