软件工程-数据挖掘--数据挖掘CHAPTER10数据挖掘应用和发展趋势

软件工程-数据挖掘--数据挖掘CHAPTER10数据挖掘应用和发展趋势

ID:46487849

大小:100.50 KB

页数:18页

时间:2019-11-24

软件工程-数据挖掘--数据挖掘CHAPTER10数据挖掘应用和发展趋势_第1页
软件工程-数据挖掘--数据挖掘CHAPTER10数据挖掘应用和发展趋势_第2页
软件工程-数据挖掘--数据挖掘CHAPTER10数据挖掘应用和发展趋势_第3页
软件工程-数据挖掘--数据挖掘CHAPTER10数据挖掘应用和发展趋势_第4页
软件工程-数据挖掘--数据挖掘CHAPTER10数据挖掘应用和发展趋势_第5页
资源描述:

《软件工程-数据挖掘--数据挖掘CHAPTER10数据挖掘应用和发展趋势》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第十章数据挖掘的应用和发展趋势“有哪些突出的例子能够说明数据挖掘在科学和商业领域小的应用?数据挖掘未來向何处去?”在阅读了本书的前面一些章节后,这些问题可能是大家最为关心的。在这最后一帝中,我们将讨论一下数据挖掘的应丿IJ,并对购买数据挖掘软件系统应注意的问题给出一些建议。另外介绍一下数据挖掘中的其他一些主题,如视频和音频挖掘,数据挖掘的统计方法,数据挖掘的理论基础,以及通过引入数据挖掘技术支持智能查询应答等。数据挖掘的的社会影响和未來趋势也在本章讨论Z中。10.1数据挖掘的应用在木书的前面章节屮,我们主要讨论了对关系数据,

2、数据仓库,和复杂数据类型(包括空间数据,多媒体数据,时序数据,文木数据,和Web数据)的挖掘原理和方法。由于数据挖掘是一门具有广泛应用的新兴学科,数据挖掘的一般原理与针对特定应用领域需要的有效数据挖掘工貝之间,还存在不小的距离。本节我们分析儿个应用领域,讨论如何为这些应用定制专门的数据挖掘工具。10.1.1针对生物医学和DNA数据分析的数据挖掘在过去的十年里,牛物医学研究有了迅猛的发展,从新药物的开发和癌症治疗的突彼,到通过大规模序列模式和基因功能的发现,进行人类基因的识别与研究。由于目前生物医学的大量研究都集中在DNA数据

3、的分析匕这里我们重点研究此应用的悄况。近期DNA分析的研究成果已经导致了对许多疾病和残疾的基因成因的发现,以及对疾病的诊断,预防,和治疗的新药物、新方法的发现。基因研究中的一个重要关注点是DNA序列的研究,因为这种序列构成了所有活的生物体的基因代码的基础。所有的DNA序列由以个基本的构块(称为核琶)组成:腺瞟吟(A),胞核唏噪(C),鸟噱吟(G),胸腺唏碇(T)。这四个核苜组合构成很长的序列或链,类似一个双绞旋梯。人类有约100,000个基因。一•个基因通常由成百个核昔按一定次序组织而成。核昔按不同的次序和序列可以形成不同的

4、棊因,儿乎是不计其数。具冇挑战性的问题是从中找出导致各种疾病的特定基因序列模式。由于在数据挖掘屮己经冇许多冇意思的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具,并在以下方面对DNA分析起着不小的贡献:异构、分布基因数据库的语义集成:由于广泛多样的DNA数据高度分布、无控地牛成与使用,对这种异构和广泛分布的基因数据库的语义集成就成为一项重要任务,以便于对DNA数据库进行系统而协同的分析。这促进了集成式数据仓库和分布式联邦数据库的开发,川于存储和管理原始的和导出的基因数据。数据挖掘中的数据清洗和数据集成方

5、法将冇助于基因数据集成和用于基因数据分析的数据仓库的构造。DNA序列间相似搜索和比较:我们已经研究过时序数据挖掘屮的相似搜索方法。在基因分析屮一个最为重要的搜索问题是DNA序列中的相似搜索和比较。对分别來白帶病和健康组织的基因序列,进行比较以识别两类基因间的主要差异。做法可以是首先从两类基因中检索出基因序列,然后找出并比较每一类中频繁出现的模式。通常,在带病样本中出现频度超出健康样本的序列,可以认为是导致疾病的基因因素;另一方而,在健康样本中出现频度超岀带病样木的序列,可以认为是抗疾病的因素。注意,虽然基因分析需要相似搜索,

6、但这里所需要的技术与时序数据中使用的方法截然不同。例如,数据变换的方法如伸缩,规范化,和窗口缝合等,这些是在时序数据分析中经常用到的方法,对基因数据而言是无效的,因为基因数据是非数字的,其内部的不同种类核背间的楮确交叉起着重要的功能角色。另一方血,频繁序列模式的分析在基因序列相似与非相似分析中非常重耍。关联分析:同时出现的基因序列的识别:目前,许多研究关注的是一个基因与另一个基因的比较。然而,人部分疾病不是由单一基因引起的,而是由基因组合起來共同起作用的结果。关联分析方法可用于帮助确定在冃标样本中同吋出现的基因种类。此类分析

7、将有助丁•发现棊因组和对基因间的交叉与联系的研究。路径分析(pathanalysis):发现在疾病不同阶段的致因基因:引起一种疾病的基因可能不止一个,不过不同基因可能在疾病的不同阶段起着作用。如果能找到疾病发展的不同阶段遗传因索序列,就冇可能开发针对疾病不同阶段的治疗药物,从而取得更为冇效的治疗效果。在遗传研究中路径分析会起到重要的作用。可视化工具和遗传数据分析:基因的复杂结构和序列模式通常可以山各种可视化工具以图,树,方体(cubiods),和链的形式展现。这种可视化的结构和模式方便了模式理解,知识发现,和数据交互。可视化

8、因此在牛物医学的数据挖掘中起着重要的作用。10.1.2针对金融数据分析的数据挖掘大部分银行和金融机构都提供丰富多样的储蓄服务(如支票,存款,和商业及个人用户交易),信用服务(如交易,抵押,和汽车贷款),和投资服务(如共有基金(mutualfunds))o有些还提供保险服务和股票投资服务。在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。