数据挖掘的应用论文数据恢复技术论文——数据挖掘在图书馆的应用分析

数据挖掘的应用论文数据恢复技术论文——数据挖掘在图书馆的应用分析

ID:47724897

大小:48.50 KB

页数:8页

时间:2019-11-06

上传者:U-25249
数据挖掘的应用论文数据恢复技术论文——数据挖掘在图书馆的应用分析_第1页
数据挖掘的应用论文数据恢复技术论文——数据挖掘在图书馆的应用分析_第2页
数据挖掘的应用论文数据恢复技术论文——数据挖掘在图书馆的应用分析_第3页
数据挖掘的应用论文数据恢复技术论文——数据挖掘在图书馆的应用分析_第4页
数据挖掘的应用论文数据恢复技术论文——数据挖掘在图书馆的应用分析_第5页
资源描述:

《数据挖掘的应用论文数据恢复技术论文——数据挖掘在图书馆的应用分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

数据挖掘的应用论文数据恢复技术论文数据挖掘在图书馆的应用分析 摘要信息技术正从数据处理向数据应用转变,图书馆迫切希望将多年来在数字化建设中形成的数据集进行面向过程、主题的抽取和分析,形成支持决策的分析数据和报表,从而改进图书馆的管理和服务。数据挖掘(DataMining)这一技术下正是为数据从处理向使用转变的技术解决方案。  关键词数据仓库;数据挖掘;分析系统;个性服务;WEB服务  信息技术的发展改变了读者对图书馆资源索取和利用的方式和手段,提出了新的服务要求,图书馆不得不采用新的技术手段来满足或适应读者的需求,图书管理系统在技术自动化、信息处理多元化等方面较以前有了很大的提高,对数据库技术的普遍应用较好地解决了读者在时间、地域限制的问题,方便读者快捷地索取资源。但是读者对信息索取的查准率仍然不高,如何将图书馆的众多信息上升成为读者知识等问题依然没有解决,甚至变得更加严重。究其原因是:信息成几何数增长的同时,图书信息管理系统(MIS)依然是面向处理的、关注数据的管理,是一种联机事务处理系统(OLTP),没有从数据使用的角度进行分析和挖掘,实现面向主题的、支持决策的功能的联机分析处理系统(OLAP),为此我们不仅要将计算机在数据管理上发挥作用,更重要是在数据分析、信息服务上体现出高效、快捷的功效。  1图书馆信息服务现状   信息、数据、知识的提升过程在信息社会中已被众多机构瞄准,他们的管理和服务正撼动着图书馆信息服务的主体地位,近年来许多IT公司宣布开拓知识服务,建立基于文献服务的知识创新,于是有人惊呼图书馆将走向没落和消亡,图书馆将被替代,调查表明图书馆的用户群正逐年流失,用户将获取知识的途径转向互联网,依赖搜索引擎。为此,我们不得不审视图书馆信息管理和服务的现状。  1.1信息不虞和信息过剩问题变得越来越严重  信息以数字形式在图书馆界得以应用和普及,数据以比特流在网络中传播和利用,滚雪球似地被用户加工和完善,面对如此众多的数据,如何找到有用的信息,成为知识,成为信息社会最大矛盾。今天,用户真切地感受到了“信息贫乏”(Informationpoor)和“数据关在牢笼中”(datainjail)的无奈,奈斯伯特(JohnNaisbett)就曾惊呼“Wearedrowningininformation,butstarvingforknowledge”(人类正被数据淹没,却饥渴于知识!)的精辟论断,这说明信息的数量和用户需求的矛盾越来越突出。  1.2信息用户松散使得我们难以把握用户的需求  1)读者的在跨地域和时间使用图书馆资源、享受图书馆的服务,图书馆提供了诸如留言簿(GuestBook)、电子邮件(Email)、在线服务(OnlineService)、虚拟参考咨询服务(VisualReferenceService)、点对点服务(P2P软件,如MSN等)等新的服务手段和交流渠道,让我们对他们的需求变得难以掌握,但是每一种服务平台(系统)都产生自己的系统日志,反映用户在当前平台下的利用情况,我们称为日志数据源(LogsSourceData),过多的数据源增加了数据综合分析统计和报表的难度。2)图书馆在信息化建设中多平台、异构系统的广泛应用,数据孤岛现象越来越严重,我们在面对数字化建设进程中所积累的大量用户访问日志和资源使用日志,我们却束手无策,无法真正获取读者的需求和评价资源的依据,我们急需技术创新。  1.3图书馆2.0带来新的挑战   Web2.0最重要的理念是以用户为中心,图书馆应本着“以人为本、开放、实用、易用”的经营理念和服务于用户的态度,保持最大程度的中立性,充分整合各类开放资源,来构建一种开放、主动、互动的创新氛围,并利用自己的核心资源和核心能力发展事业。Web2.0强调用户参与和协作,能为用户带来真正的个性化和信息自主权。Lib2.0走出了本馆的概念,在资源建设上走向合作和分工,信息发送者和使用者已没有严格界限,保证信息不失真和严谨、对信息的有效识别变得难以把握,图书馆在从信息管理上升到知识管理的难度越来越大,2.0时代对图书馆信息服务提出更高的要求。  2数据仓库与数据挖掘技术  数据仓库实际是一个以大型数据管理信息系统为基础,附加在这些数据库系统之上并存储了从所有业务数据库中获取的综合数据并能利用这些综合数据为用户提供经过处理后的有用的应用系统。数据挖掘就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,归纳出有用的结构,获取有意义的信息,作为决策的依据的方法和过程,建立数据仓库的最终目的是为数据挖掘做好数据准备。  2.1数据仓库是基于数据库管理之上的信息管理  建立数据仓库并不是取代图书馆原有的联机事务处理系统,而是将图书馆不同的数据库管理系统中的联机处理数据按一个统一的视图组织并存储,不改变原有数据的基础上进行清理、转移、分析、映射、总结和综合,形成统一的存储格式,建立新的数据模型,并按其关键技术分为数据抽取、存储和管理以及数据表现三个基本方面,数据仓库离不开原的数据库系统,必须以原有的数据库系统为基础和数据采集源。   2.2数据挖掘的核心是知识发现  数据挖掘和知识发现是同一过程,其手段是从数据库和数据仓库中提取所感兴趣的知识、或更高层次的信息,将过去的、历史的数据进行数据统计、形成能预测将来、支持决策的信息,并以图形、图表的形式反映,知识就能够准确、安全、可靠地从数据库取出数据。  3数据挖掘在图书馆信息管理中的应用  在图书馆信息服务领域,利用数据仓库和数据挖掘技术,不仅可以了解用户访问图书馆的目的、特征和趋势,而且可以在了解用户的兴趣和需求的基础上,改进服务质量,变被动服务为主动服务,同时还可以为资源购买提供及时、准确、可行的信息决策依据。目前,图书馆在经历了十年的数据库建设和管理,已积累了大量的、实在的数据使用记录,为建立数据仓库提供了理想的数据储备。  3.1图书馆集成管理系统中的数据挖掘  图书馆管理系统是根据传统手工借阅和卡片目录实现计算机管理而设计的一种计算机软件,此软件能快速地将图书馆传统手工业务通过计算机和网络实现读者服务,增强工作效率,达到理想的用户服务。但是新的问题随之而出,在这个信息技术不断革新升级的过程中,图书馆业务自动化的软件数据成几何级的数量增长,软件升级和更换成了图书馆管理软件发展不得不面临的问题,数据和日志由于数据量大和系统的异构性,致使大部分数据成为历史数据,甚至成为垃圾数据而存在,图书馆不得不保存这些垃圾数据,随着时间的推移,部分用户抛弃了这些数据,有些图书馆对数据遗弃感到价值贬值,作为管理者和经营者,更多地希望通过对历史数据的采样和分析, 获得读者阅读习惯、阅读动态数据,了解馆藏结构和发展变化,充分掌握馆藏的情况,根据分析报告指导图书馆业务工作。  3.2电子资源系统中数据挖掘  现代图书馆,电子馆藏已成为必要的组成部分,各个商业数据库从访问方式和系统架构都趋于多样化、复杂化,图书馆要想获得使用情况的分析,不得不依赖商业公司提供的有限的报表支持功能,且系统间的数据不能实现共享和综合分析,即信息系统还不足以支持决策,图书馆要进一步全方位综合地分析和处理,具有本馆特色的分析,才能从根本上多面(multiplytub)分析数据,通过数据挖掘技术对电子资源进行综合评估、分析、对比形成资源在本馆的价值分析系统。3.3图书馆留言、FAQ等虚拟咨询台信息的数据挖掘  基于图书馆网站的第二服务平台,其形式和手段都得以改善和提高,用户可以通过网络平台进行咨询,获取图书馆的服务,一系列的虚拟参考服务系统(平台)在图书馆得到广泛的应用,解决了在网络环境对下用户与图书馆员间的沟通和互动,但是这些信息相对零散,虚拟参考平台侧重于从技术手段改进,没有从根本上解决语义分析,知识提取的功能,采用数据挖掘技术,将用户咨询问题,解答日志进行分析,通过一定的计算机模型,让计算机模仿和学习,通过网络计算机以人的方式分担馆员的部分咨询和服务。  4数据挖掘对图书馆管理与服务的改进和存在的问题  4.1个性化服务   个性化服务指的是以用户为中心,基于用户的信息使用行为、习惯、偏好、特点及用户特定的需要,向用户提供满足其个性化需求的信息内容和系统功能的一种服务,包含两方面的含义:首先是针对不同的用户所提出的不同的信息需求提供有针对性的信息服务,包括信息咨询、信息结果推送等;其次是通过对用户信息或者是对用户的信息需求历史进行数据分析从而发现用户对信息的潜在需求,从而实现对用户进行主动的、符合其要求的、有用的信息服务。因此,用户的兴趣、习惯、偏好和特点是个性化服务的起点,先进的技术是个性化服务的重要手段,针对性、主动性是个性化服务的特点。对于数字图书馆来说,个性化服务首先应该是利用现代网络、人工智能等计算机技术,提供能够满足用户个体信息需求的服务即根据用户提出的明确要求为其提供信息咨询、信息检索、信息收集、信息整合等一系列的综合性信息服务机制;其次个性化服务应该是一个研究、分析、实现的过程,即对不同用户所有信息的历史数据包括用户的信息检索、信息查询方式等方面进行研究,分析他们之间的特殊性和共同性。并从中获取不同用户的不同信息特征,然后把这些信息特征加载到数字图书馆个性化信息服务系统中,从而实现数字图书馆对用户需求信息的个性化服务。这两方面都离不开对数据的分析和挖掘,不得不借助于联机分析处理系统。  4.2改善馆藏结构,指导资源建设  传统图书馆信息采集多由采访人员独自确定或与少数专家同共商讨决定,甚至成立文献采购委员会,均不可避免地带有极大的主观性以及个人喜好。利用Web数据挖掘,至少可以从以下三方面搜集广泛的信息需求,聚集用户智慧,达到信息资源的优化并提高针对性:1)可以对流通记录、检索请求进行分析,按类统计文献借阅信息的频繁度,有针对性地补充和丰富信息资源;可结合文献的利用率,及时剔除过时的文献信息,或减少部分文献信息的复本量或共享站点数。另一方面,对用户每次借阅的文献进行关联分析,发现各类文献间的关联规则或比例关系,优化信息建设或馆藏布局。   2)收集整理并重构图书馆网上咨询、荐购书刊等栏目中的数据,使之转化为标准的结构化数据,利用数据挖掘方法发现用户兴趣模式,甚至可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好文献信息的搜集订购。  3)对Web访问信息的挖掘,可以发现信息资源的缺漏。另外,利用路径分析模式采掘捕捉用户频繁浏览访问的路径改进数字图书馆站点结构设计。  4.3存在的问题  数据挖掘是在大量的数据中发现潜在的、有价值的模式和数据间关系(知识)的过程,这一领域还有面临诸多问题:各种数据挖掘问题及挖掘方法基于不同的模型和技术,彼此互相孤立,联系很少,缺少简明精确的问题描述方法,挖掘的语义通常是由实现方法决定的。数据挖掘系统仅提供孤立的知识发现功能,难于嵌入大型应用,数据挖掘引擎与数据库系统是松散耦合。到目前为止,数据挖掘行业是高度分散的,需要计算机专业技术人员和图书馆管理专家的共同的参与,特别是在粒度、维度和元数据的设计方面需要资深的、掌握本馆各种业务概况的管理人员参与,方可针对本馆的科学模型,提供联机分析。  5结束语   目前,图书馆界的学者利用各自不同的技术和方法对数据挖掘进行了卓有成效的研究,在数据挖掘应用方面已取得了一定的成果。但是数据挖掘还面临着如数据挖掘语言的标准化、对多种类型、多层次知识的有效挖掘方法;在实施方面图书馆管理行政化特点还相对浓厚,还不能完全按企业标准在实施;在技术手段上如何在Internet网进行快速有效的数据挖掘、数据挖掘中的隐私保护与信息安全等问题。不过数据挖掘在其他行业已取得了骄人的成就,特别是在企业的ERP,CRM系统中为决策者提供强有力分析数据支持。图书馆在竞争日益激烈的情况下和行业多元化的推动下,图书馆的管理手段和服务能力将更多的依赖先进的技术手段,数据挖掘这一技术将在图书馆得到合理的开发和应用。  参考文献  [1]王蔚.数据仓库与WEB技术应用研究[J].图书馆研究,2007,3:11-14.  [2]李小平,李军.图书管理系统中的数据挖掘应用[J].贵州工业大学学报,社会科学版,2007.9(3):206-208.  [3]罗晓沛.数据库技术北京[M]:清华大学出版社,1999,6.  [4]刘俊熙.Web挖掘过程和元数据的运用[J].情报杂志,2004,2:30-33.  [5]杨宝森.面向学科的Web数据挖掘研究[J].情报杂志,2006,3:19-21.  [6]王建平.数据挖掘技术的发展与研究[J].情报杂志,2007,6:79-81.  [7]欧阳烽.Web数据挖掘与高校数字图书馆个性化服务[J].数字图书馆论坛,2008,1:103-105.  [8]李默.基于Web的数据挖掘技术在数字图书馆中的应用[J].大学图书馆情报学刊,2007,4(25):44-46.  [9]林建勤.数据挖掘主要问题的对策研究[J].贵阳学院学报:自然科学版,2007.6(2):1-4.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭