利用java实现基于xml的web上的数据库挖掘agent

利用java实现基于xml的web上的数据库挖掘agent

ID:34525801

大小:158.00 KB

页数:4页

时间:2019-03-07

利用java实现基于xml的web上的数据库挖掘agent_第1页
利用java实现基于xml的web上的数据库挖掘agent_第2页
利用java实现基于xml的web上的数据库挖掘agent_第3页
利用java实现基于xml的web上的数据库挖掘agent_第4页
资源描述:

《利用java实现基于xml的web上的数据库挖掘agent》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、维普资讯http://www.cqvip.com研究与开发_忿.蠹京妒、、

2、_“白刍Web上白刍数据库挖掘Agentl__罗清磊,李卫华(广东工业尢学计算机系,r州51009O)摘要:丰文讨论了web数据挖掘~gent的意义.介绍了基于传统的HTML的Web网玎实现数据挖掘的困难舟招了xML新技术在实现Web上的数据挖掘的优势.哥简要舟绍了Java实现XML同页上数据挖掘的过程关键词:XML;数据挖掘;Agent弓言用户需要的内容。基于Agent的系统采用了智能和自主的问题求解Agent,可以很好地帮助用户挖掘随着数据库和lnternet技术的迅速发

3、展,人类Web信息资源,准确、迅速、有效而适量地为用户“生产”的数据呈几何级数增长,使全世界的信息量提供所需的信息。虽然人们在Web页面上,为实现急剧膨胀,即所谓的“知识爆炸”。它导致了两个方智能数据挖掘Agent作了大量的研究工作,也取得面阅题的出现:一方面是“信息过载”,数据的高速了显著的成绩但是,由于数据库中的数据是结构增长并不能真正为用户带来更多的知识和效益,由化的.而Web页面上的数据是半结构化的,基于于很多信息和知识得不到及时的维护和管理,变成HTML面向Web页面的数据挖掘比面向传统数据了信息。垃圾”;另一方面是“资源迷向”,人们面对库

4、的数据挖掘要复杂得多。可喜的是XML语言的浩如烟海的信息和知识不知所措,为找不到自己所问世,改进了HTML的不足,不仅对Web技术的进需要的信息而苦恼:在这种背景下,数据挖掘DM一步发展产生了重大影响,也为因特网数据挖掘rDataMining)技术得到了空前的发展。数据挖掘是Agent的发展创造了新的机遇。本文探讨了传统语指从枯燥的海量数据中发现知识数据(包括经验稚言在¨fm】网页上实现信息挖掘的不足,并介绍了只托理论知只)。从工程技术的角度来看,一切有Java和XML新技术在Web上实现信息挖掘Agent鼬_『解决问题的、可复用的信息都是知识的优势

5、:因特嘲为人类提供了最为丰富的数据资源.但存网L寻找到对自己有用的信息并不是一件简单lWeb上的数据挖掘Age1'7t弁的事,因为web上的信息是不断动态地发展的,在从浩如烟海的Web页面中“提炼”出自己真正:l上操作的用户愈来愈多,挖掘的任务就愈来需要的信息.并为决策和管理提供支持,这就是因;愈复杂,Web中隐藏的信息就不能得到充分的挖特网数据挖掘的目标。掘和利用。虽然目前在web上有很多自动引擎,如数据挖掘(DataMining)一词最早出现在19890Inseek,h.'cos,Excited,OpenText等,可以帮助我年于美国召开的第一届

6、国际KDD大会上,1995年!:们寻找信息,但是它们不够准确,会返回给我们很在加拿大召开的第一一届知识发现与数据挖掘学术多无关的信息,另外,它是智能化的,它只是根据会议上,出现了数据挖掘的概念。其中,Frawley、f:用p输~的关键间等查询信息.而不能准确地表达,一MODERNc0MPuTlR2】@『维普资讯http://www.cqvip.com研究与开发Piatetsky和Shapior等人提出的数据挖掘(Data(2)具有流动性Mining)定义得到了普遍的认同:数据挖掘是从大数据挖掘Agent搜索网上数据库时,在信息的型数据库的数据中提取人

7、们感趣的知识。这些搜索和处理时,能够从网络上的一台计算机迁移到知识是隐含的、事先未知的、潜在有用的,提取的知另一台计算机,能够根据网页超链转移到其他网只可表示为概念(Concepts)、规则(Rules)、规律页,但是基于HT1ML的文档格式、书写的规范有可(Regularities)或模式(Patterns)。能各不相同.这种转移存在一定困难,不过在基于上述定义把数据挖掘的对象定义为数据库,我xML网页里这种隋况会有很大的改观:们可“将上述定义进一步拓展为:数据挖掘是在~(3)具有智能性些事实或数据集台中发现概念、规则、规律或模式数据挖掘Agent

8、应当具备自学习性,它能根据的决策支持过程。这样,数据挖掘的对象不仅可以用户的输入,学习用户的兴趣,能够将其返回的输是数据库,还可是其他数据集合,如文件系统或出与查询对象的知识比较,从而学会从不熟悉的资因特网Web站点等。web上的每一个站点就是一源中抽取信息,能够白适应外部环境的变化。个数据源,每个数据源都是异构的,因而每一站点当然Agent还应当具有其他一些特性,如安全之间的信息和组织都不一样.这就构成了一个巨大性、社会性、协作性等,奉文不作重点讨论。的异构数据库环境。因特网数据挖掘是一个前沿2×HL的新优势研究课题,它比一般数据仓库中的数据挖掘要

9、复杂许多。因特网上Web页面中的数据既不是完全结HTML着重于网页的表现形式,而不擅长对信息语意及其内部结构

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。