浅谈数据挖掘技术在数字图书馆应用

浅谈数据挖掘技术在数字图书馆应用

ID:23514964

大小:60.12 KB

页数:6页

时间:2018-11-08

浅谈数据挖掘技术在数字图书馆应用_第1页
浅谈数据挖掘技术在数字图书馆应用_第2页
浅谈数据挖掘技术在数字图书馆应用_第3页
浅谈数据挖掘技术在数字图书馆应用_第4页
浅谈数据挖掘技术在数字图书馆应用_第5页
资源描述:

《浅谈数据挖掘技术在数字图书馆应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浅谈数据挖掘技术在数字图书馆应用引百计算机和互联网的飞速发展和普及,给全世界带来了巨大的信息化浪潮。信息量迅速、持续的增长给人们带来方便的同时也带来了困惑和烦恼,海量的数据已远远超过人类的处理和分析理解能力,同时信息真假的辨识、安全性的保证以及格式的统一问题也是人们面临的一个挑战。于是,数据挖掘技术应运而生,而数字图书馆作为信息管理和服务的主要机构,同样也积累了大量的信息而且也要面对使用中的各种问题,数据挖掘技术的应用可以为数字图书馆的业务工作和管理工作提供可靠的决策依据,也必将对图书馆其他方面的工作产生深远的影响。一、数据挖掘技术概述数据挖掘是一门不断快速

2、发展的综合性交叉学科,其兴起于20世纪80年代末期。数据挖掘理论汇聚了数据库、可视化、并行计算等方面的技术,集统计学、人工智能、模式识别、计算机科学、机器学习等多门学科理论知识为一体。其在多个领域都有所应用。(一)数据挖掘定义所谓数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。我们知道知识发现(KnowledgeDiscoveryinDatabases,KDD)是一个能从大型的数据库中自动地和智能地抽取一些有用的、可信的、有效的和可以理解的模式的过程。而数据挖掘(D

3、ataMining,DM)是KDD的一个处理过程,也是KDD的最重要环节。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。(二)数据挖掘的任务数据挖掘任务分描述性数据挖掘和推断性数据挖掘两大类。和统计学原理相似,描述性数据挖掘的任务是描述数据的一般特征,推断性数据挖掘的任务试图基于提供的数据做预测。目前基于数据挖掘功能所能发现的各种知识主要包括特征化描述、判别分析、关联分析、数据分类、预测、聚类、孤立点分析、偏差分析等。通常,人们对他们所能发现的各种模式或者是需要从手头数据来发现模式没有

4、一个清晰的思路,因此,必须要有一个通用的数据挖掘系统用来发现各种知识以及不同抽象层次的知识,这也使得交互性成为数据挖掘系统的一个重要特征。(三)数据挖掘的基本步骤数据挖掘的步骤会随应用的领域不同而有所不同,每一种数据挖掘技术也都有各自的特性和使用步骤,所以针对不同问题和需求所制定的数据挖掘过程也会存在各种差异。另外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而有所不同,因此对于数据挖掘过程的系统化、标准化就显得格

5、外重要。为这样,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。通常数据挖掘完整的步骤如下:1.理解数据和数据的来源。2.获取相关知识与技术。3.整合与检查数据。4.去除错误或不一致的数据。5.建立模型和假设。6.实际数据挖掘工作。7.测试和验证挖掘结果。8.解释和应用。由此可以看出,数据挖掘牵涉了大量的准备工作与规划工作,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接等。(四)数据挖掘的方法在整个数据挖掘过程中,第6步是数据挖掘的实施阶段,即根据目标任务的数据类型等选取相应的数据挖掘算法并进行挖掘。而数据挖掘的方

6、法由人工智能和机器学习的方法发展而来,人们结合传统的统计分析法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,最终形成数据挖掘的方法。目前业界比较认可以下6种方法:1.统计分析方法:利用统计学原理对数据库中的数据进行分析,能得到各种不同的统计信息和知识,作为数据挖掘的一大类方法,包括:常用统计、相关分析、回归分析、差异分析、聚类分析、判断分析。2.归纳学习方法:从采用的技术角度上可分为两大类,信息论方法和集合论方法。信息论方法是利用信息论的原理建立决策树。3.模糊数学方法:模糊性是客观存在的,而当系统的复杂性越高,其精度的复杂性就会越高,其精确化能

7、力便越低,这就意味着模糊性越强。利用模糊集合理论进行数据挖掘的方法有:模糊模式识别、模糊聚类、模糊分类和模糊关联规则等。4.仿生物技术:典型的方法是神经网络方法和遗传算法。5.公式发现:在工程和科学数据库中对若干数据项进行一定的数学运算的相应的数学公式。6.可视化技术:是一种图形显示技术。例如,把数据库中多维数据变成多种图形。二、数据挖掘技术在数字图书馆中的应用目前数据挖掘技术已经形成相对成熟的技术体系,其在数据组织与分析、数据挖掘、知识发现等方面存在巨大潜力。因此数据挖掘除了可以为数字图书馆的建设提供关键技术外,还可以实现海量数据的存储和利用,提取出表面上

8、庞杂无序而有内在联系的信息供读者使用。也可以指导图书

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。