数据流系统建模与分析.doc

数据流系统建模与分析.doc

ID:35986519

大小:47.50 KB

页数:8页

时间:2019-04-29

数据流系统建模与分析.doc_第1页
数据流系统建模与分析.doc_第2页
数据流系统建模与分析.doc_第3页
数据流系统建模与分析.doc_第4页
数据流系统建模与分析.doc_第5页
资源描述:

《数据流系统建模与分析.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据流系统建模与分析*本文受美国国家科学基金会资助(IIS-0118173)。MayurDatar同时受微软研究生奖学金资助。RajeevMotwani受Okawa基础研究基金的部分资助。BrianBabcockShivnathBabuMayurDatarRajeevMotwaniJenniferWidom斯坦福大学计算机科学系StanfordUniversityStanford,CA94305{babcock,shivnath,datar,rajeev,widom}@cs.stanford.edu摘要:在这篇综述中,我们讨论了对一种新的数据处理模型的需求,研究了

2、这种新模型引发的一些问题。在这种模型中,数据并不呈现为持久稳定的状态,而是以大量、连续、快速、时变的数据流形式到达。本文回顾了过去与数据流系统相关的工作,评论了当前与此相关的一些项目。另外,本文还探讨了流查询语言,查询处理中新的需求和挑战,以及算法问题。1引言近年来,一类新的数据密集型应用已经得到了广泛的认同,这类应用的特征是:数据不宜用持久稳定关系建模,而适宜用瞬态数据流(datastreams)建模。这些应用的实例包括金融服务,网络监控,安全,电信数据管理,Web应用,生产制造,传感检测等等。在这种数据流模型中,单独的数据单元可能是相关的元组(tuples),

3、例如网络测量,呼叫记录,网页访问,传感读数等产生的数据。但是,由于这些数据以大量、快速、时变(还可能是不可预知、极大的)的数据流形式持续到达,由此产生了一些基础性的新的研究问题。在上面提到的所有应用中,若把持续到达的数据简单的放到传统的数据库管理系统(DBMS)中,并在其中进行操作,是不太切实的。传统的DBMS并不是为快速连续的存放单独的数据单元而设计的,而且也并不支持“连续查询”(continuousqueries)【84】,而“连续查询”是数据流应用的典型特征。另外,现在人们都认识到,“近似性”(approximation)和“自适应性”(adaptivity

4、)是对数据流进行快速查询和其他处理(如数据分析和数据采集)的关键要素,而传统DBMS的主要目标恰恰与之相反:通过稳定的查询设计,得到精确的答案。在这篇论文中,我们分析了通用数据流管理系统(DataSteamManagementSystem:DBMS)的一些基本模型和相关的问题。我们正在开发一个斯坦福流数据管理系统(StanfordStreamDataManagement)【82】,因此,本文中还设计到我们自己的一些工作。我们希望提供一个对此领域概括性的综述,同时阐述当前与之相关的工作。(文中出现的任何大的疏漏都是我们的错误。)从第2部分开始,我们将分析数据流建模和

5、基于流的查询。在这一节,我们作一个简单的观察:流与瞬时元组只是附加关系(streamsareappend-onlyrelationswithtransienttuples),而查询是SQL对这些逻辑关系的操作。在随后的几节中,我们将讨论使模型和查询语言变得复杂的几个问题,如排序、时标以及滑动窗口。在第2节中,我们还将将给出一些具体的例子作为我们讨论的基础;在第3节,我们将回顾近年来与数据流处理明确相关的一些项目,同时,我们也看看与数据流领域相关的过去做过的其他研究,例如:主动数据库、连续查询,过滤系统,视图管理,时序数据库(sequencedatabases)等等

6、。很显然,上述各个领域已有了进行数据流处理的应用软件,但我们将会发现,如果要实现一个完整的DSMS,将会遇到许多新问题;第4节将对查询处理领域进行深入研究,揭示如下一些重要问题:l需要极大的内存来评估查询的精确性,近似查询处理技术能够处理这个问题;l滑动窗口查询技术(如,只考虑“较新的”数据流)既能当作一种“逼近(approximation)技术”也能当作一种查询语言中的可选项,因为很多应用程序都采用了滑动窗口查询;l批处理,抽样,提取大纲结构(synopsisstructurestohandle)等情况下,输入的数据流也许会使查询处理器不堪重负;l在数据流没有终

7、结的情况下,块操作码(blockingoperators)的意义及其实现;l当数据流的部分数据已经流过的情况下,注册成“持续查询”的查询需要参考数据流的历史信息;接下来的第5节将给出一种查询语言,并给出一个能解决上述问题的DSMS查询处理器的体系结构;第6节我们将分析流处理中的算法结果。我们主要关注梗概技术和建立概要结构(纲要)。我们还会涉及到滑动窗口计算,给出一些不太理想结果,讨论另外几个算法问题;最后在第7节,我们给出结论,并对这一新领域做出一些评论,同时对今后的研究方向作一个概括。2数据流模型在数据流模型中,部分或全部需处理的输入数据并不在可随机访问的磁盘或

8、内存中,但

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。