信息架构本质:分布式数据挖掘

信息架构本质:分布式数据挖掘

ID:27807359

大小:104.66 KB

页数:5页

时间:2018-12-06

信息架构本质:分布式数据挖掘_第1页
信息架构本质:分布式数据挖掘_第2页
信息架构本质:分布式数据挖掘_第3页
信息架构本质:分布式数据挖掘_第4页
信息架构本质:分布式数据挖掘_第5页
资源描述:

《信息架构本质:分布式数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、拥有分布式数据的组织所而临的挑战数据存储能力的爆炸式增长和快速的网络通信协议已使得组织能够收集和存储有关特定主题的超大信息量。这些数据库的大小可能达到PB(1x10^15字节,或百万兆字节)以上——真止是令人瞠目结舌的数据量!这样的大规模信息存储通常出现在研究应用领域(例如牛物学、医学、物理学和天文学)和政府机构(例如美国国税局、国防部和劳工部)中。它们也可能出现在商业中:例如,针对承保风险的保险计算。政府机构通常需要共享数据,但是不同的数据模式、接口和通信技术使得这些数据的传输变得复杂化。对于敏感信息来说尤其是如此,例如国防部或国土安全部使用的信息。这些机构

2、通常拥有遗留系统,那些系统是专有的,难于扩展,或以其他方式对外部系统是封闭的。存储在这些系统屮的信息可能具有各种各样的二进制格式,其中某些格式不再具有适当的文档说明。使这种情况进一步复杂化的是,相关数据可能散布在多个系统之中,承载在不同的网络上,或者驻留在各种各样的物理位置。企业在收购另一家公司时,通常面临着广泛分布的数据问题。在这种情况下,两家公司的系统很少会兼容,从而在挖掘合并后的公司以获取常见的利润、损失、风险和成本问题的答案时,会产生大量难题。还可能会出现产品或服务供应、配送、库存管理、调度等方面的问题。集成这些不同数据源所需的成本对新合并的公司来说是

3、一项非常大的开支。研究人员重点关注新知识的发现。为了获取新知识,他们通常需要查找并了解其他研究人员以前的发现。现在存在着包含有关整个人类基因组(以及其他物种的基因组)、天文观察、粒了物理学、药物发明和其他许多领域的信息的大规模数据库。人们面临的挑战不再是收集信息,而是挖掘数据以回答特定研究问题——例如人类基因组比果蝇的基因组小如此多的矛盾。这些数据库位于全世界的研究中心,每个数据库具有自己的独特存储结构、访问接口和通信协议。希望与同事协作的研究人员必须能够容易地在数据存储Z间來回传递信息,并拥有高效的数据处理机制。提供了这些数据存储的大规模散布性质,挑战在于组

4、织如何发现、访问和有效地使用分布式数据。技能和能力分布式数据挖掘的问题有许多考虑因素,但是主要存在三个关注事项:发现信息、安全地访问信息和足够高效地传输数据以满足处理需要。数据挖掘分布式数据源数据挖掘的第一个问题是发现。除非您能够找到感兴趣的数据,否则您能够使用该数据源的可能性是非常低的。发现机制各不相同,但是可将它们归入两个主耍类别:静态发现和动态发现。静'态友现是手动确定数据源系统,并预先配置处理系统以在其处理屮使用所确定的源。此方法最常见但是最不灵活。如果较新的源变得可用,则无法保证合并新的源。可能的情况是,除非某人注意到了新的源,否则新的源将不会被使用

5、。较灵活(但是更难于实现)的机制是动态发现适当的数据源。动态发现是统一描述、发现和集成(UniversalDescriptionDiscoveryandIntegration,UDDI)以及开放网格服务基础结构(OpenGridServiceInfrastructure,OGSI)背后的基本思想。数据源将其功能和内容注册到中央注册中心,在运行时可以杳询中央注册中心以寻找与您的处理需要相匹配的数据源(例如,用于巡天搜索的天文数据库)。在发现数据源以后,下一步是获得对该信息的访问权限。获得访问权限涉及到两个安全问题中的笫一个问题:对许可用户进行身份验证。存在许多对

6、远程用户进行身份验证的协议,例如来自受信任来源的证书或安全令牌。但是对于分布式数据库,每个源可能使用单-独的机制。请考虑在获得对多个数据存储(其屮所有数据存储都需要不同的身份验证技术)的访问权限时所存在的困难。这是分布式处理模型的一个主耍问题,并且是一个重耍的研究和标准化领域。一旦获得了对远程数据源的访问权限,卜•一个问题就是数据传输。此步骤中的困难源口于相关数据源的大小——通常在TB或PB的范围内——使得通过远程连接检索数据变得不切实际。在此情况下,您冇两种可能的选择:批量检索数据以便在本地处理,或者在远程平台上执行处理。第一种情况的示例是SETI_cnne

7、wl@HOME项目,其屮数据包被分发到志愿者处理站点,在本地执行转换,然后传回屮央服务器进行合并和分析。第二种情况的示例是执行与特定DNA、RNA或蛋白序列匹配的基因基本序列搜索(BLAST)o最后,在完成处理之后,您需要合并源信息或处理结果以便分析。正如前面指出的,可能需要从远程数据源检索数据或在木地合并处理结果。合并信息要求以共同的方式对数据进行组织。否则,将每个数据条目从一个源数据系统映射到另一个源数据系统将非常耗吋。安全性分布式处理的安全性受到以下情况的影响:需要通过可能不安全的介质(例如Internet)将信息从一个站点传输到另一个站点。除了提及所涉

8、及的问题和某些可用的技术之外,木文将不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。