数据挖掘chapter10数据挖掘应用和发展趋势

数据挖掘chapter10数据挖掘应用和发展趋势

ID:19625220

大小:105.00 KB

页数:18页

时间:2018-10-04

数据挖掘chapter10数据挖掘应用和发展趋势_第1页
数据挖掘chapter10数据挖掘应用和发展趋势_第2页
数据挖掘chapter10数据挖掘应用和发展趋势_第3页
数据挖掘chapter10数据挖掘应用和发展趋势_第4页
数据挖掘chapter10数据挖掘应用和发展趋势_第5页
资源描述:

《数据挖掘chapter10数据挖掘应用和发展趋势》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第十章数据挖掘的应用和发展趋势“有哪些突出的例子能够说明数据挖掘在科学和商业领域中的应用?数据挖掘未来向何处去?”在阅读了本书的前面一些章节后,这些问题可能是大家最为关心的。在这最后一章中,我们将讨论一下数据挖掘的应用,并对购买数据挖掘软件系统应注意的问题给出一些建议。另外介绍一下数据挖掘中的其他一些主题,如视频和音频挖掘,数据挖掘的统计方法,数据挖掘的理论基础,以及通过引入数据挖掘技术支持智能查询应答等。数据挖掘的的社会影响和未来趋势也在本章讨论之中。10.1数据挖掘的应用在本书的前面章节中,我们主要讨论了对关系数据,

2、数据仓库,和复杂数据类型(包括空间数据,多媒体数据,时序数据,文本数据,和Web数据)的挖掘原理和方法。由于数据挖掘是一门具有广泛应用的新兴学科,数据挖掘的一般原理与针对特定应用领域需要的有效数据挖掘工具之间,还存在不小的距离。本节我们分析几个应用领域,讨论如何为这些应用定制专门的数据挖掘工具。10.1.1针对生物医学和DNA数据分析的数据挖掘在过去的十年里,生物医学研究有了迅猛的发展,从新药物的开发和癌症治疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别与研究。由于目前生物医学的大量研究都集中在DNA

3、数据的分析上,这里我们重点研究此应用的情况。近期DNA分析的研究成果已经导致了对许多疾病和残疾的基因成因的发现,以及对疾病的诊断,预防,和治疗的新药物、新方法的发现。基因研究中的一个重要关注点是DNA序列的研究,因为这种序列构成了所有活的生物体的基因代码的基础。所有的DNA序列由四个基本的构块(称为核苷)组成:腺嘌呤(A),胞核嘧啶(C),鸟嘌呤(G),胸腺嘧啶(T)。这四个核苷组合构成很长的序列或链,类似一个双绞旋梯。人类有约100,000个基因。一个基因通常由成百个核苷按一定次序组织而成。核苷按不同的次序和序列可以形

4、成不同的基因,几乎是不计其数。具有挑战性的问题是从中找出导致各种疾病的特定基因序列模式。由于在数据挖掘中已经有许多有意思的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具,并在以下方面对DNA分析起着不小的贡献:异构、分布基因数据库的语义集成:由于广泛多样的DNA数据高度分布、无控地生成与使用,对这种异构和广泛分布的基因数据库的语义集成就成为一项重要任务,以便于对DNA数据库进行系统而协同的分析。这促进了集成式数据仓库和分布式联邦数据库的开发,用于存储和管理原始的和导出的基因数据。数据挖掘中的数据清洗

5、和数据集成方法将有助于基因数据集成和用于基因数据分析的数据仓库的构造。DNA序列间相似搜索和比较:我们已经研究过时序数据挖掘中的相似搜索方法。在基因分析中一个最为重要的搜索问题是DNA序列中的相似搜索和比较。对分别来自带病和健康组织的基因序列,进行比较以识别两类基因间的主要差异。做法可以是首先从两类基因中检索出基因序列,然后找出并比较每一类中频繁出现的模式。通常,在带病样本中出现频度超出健康样本的序列,可以认为是导致疾病的基因因素;另一方面,在健康样本中出现频度超出带病样本的序列,可以认为是抗疾病的因素。注意,虽然基因分

6、析需要相似搜索,但这里所需要的技术与时序数据中使用的方法截然不同。例如,数据变换的方法如伸缩,规范化,和窗口缝合等,这些是在时序数据分析中经常用到的方法,对基因数据而言是无效的,因为基因数据是非数字的,其内部的不同种类核苷间的精确交叉起着重要的功能角色。另一方面,频繁序列模式的分析在基因序列相似与非相似分析中非常重要。关联分析:同时出现的基因序列的识别:目前,许多研究关注的是一个基因与另一个基因的比较。然而,大部分疾病不是由单一基因引起的,而是由基因组合起来共同起作用的结果。关联分析方法可用于帮助确定在目标样本中同时出现

7、的基因种类。此类分析将有助于发现基因组和对基因间的交叉与联系的研究。路径分析(pathanalysis):发现在疾病不同阶段的致因基因:引起一种疾病的基因可能不止一个,不过不同基因可能在疾病的不同阶段起着作用。如果能找到疾病发展的不同阶段遗传因素序列,就有可能开发针对疾病不同阶段的治疗药物,从而取得更为有效的治疗效果。在遗传研究中路径分析会起到重要的作用。可视化工具和遗传数据分析:基因的复杂结构和序列模式通常可以由各种可视化工具以图,树,方体(cubiods),和链的形式展现。这种可视化的结构和模式方便了模式理解,知识发

8、现,和数据交互。可视化因此在生物医学的数据挖掘中起着重要的作用。10.1.2针对金融数据分析的数据挖掘大部分银行和金融机构都提供丰富多样的储蓄服务(如支票,存款,和商业及个人用户交易),信用服务(如交易,抵押,和汽车贷款),和投资服务(如共有基金(mutualfunds))。有些还提供保险服务和股票投资服务。在银行和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。