流数据挖掘 证券投资的金导航.pdf

流数据挖掘 证券投资的金导航.pdf

ID:55660744

大小:213.66 KB

页数:3页

时间:2020-05-23

流数据挖掘 证券投资的金导航.pdf_第1页
流数据挖掘 证券投资的金导航.pdf_第2页
流数据挖掘 证券投资的金导航.pdf_第3页
资源描述:

《流数据挖掘 证券投资的金导航.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、栏目编辑:付娆lAp技pl术ica应tio用n埘人数据带来昀金色商帆。衾融桃构充满希冀.有先苔已在辨究洚搭架人数据处理台.人多机构刚仍处于观望.小范试验阶段本I戮题介f流数据.爻本数据.图像s影像t类泣内关注的数据挖抛技术攻会融瞳应踊。希望有叻于读者开舀思维流数据挖掘证券投资的金导航文l中国银河证券股份有限公司信息技术部王作敬前金融领域的许多公司纷纷流数据的挖掘。流数据相关算法可以\I/—。。‘]将流数据挖掘技术应用到金分为三大类:作为管理及挖掘基础的———1_—_—___I融领域的数据分析中。数据摘要生成算法;主要面向管理的流数据是一组顺序、大量、快速、流数据统

2、计查询算法;流数据分类、连续到达的数据序列,一般情况下,数高频项挖掘、聚类、变化等挖掘算法。据流可被视为一个随时间延续而无限Babcock等人现已完整阐述了流数据增长的动态数据集合。它具有以下几的各种相关问题,之后的流数据相关个特点:数据实时到达;数据到达次文献基本围绕以上内容展开,国外已序独立,不受应用系统所控制;数据进行了深入研究。规模宏大且不能预知其最大值;数据国内关于流数据挖掘方面的研究一经处理,除非特意保存,否则不能和应用尚在初始阶段,研究理论、算被再次取出处理,或者再次提取数据法和技术不多也不太成熟,应用也处代价昂贵。于探索阶段。有学者已经提出了相关流

3、数据对证券行业算法交易、数理论的具体应用前景,但应用成果还据模型的建立等应用具有很大价值,比较欠缺。总体看来主要包括:金融王作敬,银河证券股份有限公司倌息这也使得引入流数据上的数据挖掘技业的传统的和电子商务中的交易行为技术鄯高级经理,从事公司JT规划及术显得非常重要且必要。分析、市场营销、客户关系管理和风系统设计与开发管理等工作,曾获得险管理;信息检索和搜索引擎;生物2006年中回首届杰出数据库工程师评一信息学;智能交通运输工程;电信电、国内外技术发展情况选优秀数据庳工程师称号,作为主要话记录监测、电子邮件、电力、石油负责人参与的数据中项目获得中国目前流数据的研究

4、主要可分为两等行业数据库安全管理与监测、网络证券期货业科学技术奖三等奖。个应用层面:对流数据的管理以及对安全等领域的异常挖掘等方面。金屯子l59技术应用.pplication二、金融领域中流数据挖掘将数据流划分为小的固定长度的段4.哀减算法应用涉及的关键技术(bucket,或basicwin2dow),对每个除了滑动窗口技术,另一种可被段,仅保存段内数据的概要信息,如用来消除历史数据对当前计算结果的1.概数构StaS2tream。滑动窗口在这些段上影响的方法是使用衰减因子。在这种在流数据处理系统中,由于数据滑动。当流入的数据积累成一段时,方法中,每个数据项都被赋予

5、一个随量远大于可用内存,系统无法在内存抽取这一段的概要信息,将其加入滑时间不断减小的衰减因子,数据项的中保存所有扫描过的数据,而流数据动窗口,并从滑动窗口中删除最早的值与衰减因子相乘后再参与计算。因查询与挖掘经常会要求读取这些数据。段。这样,内存中就只需要保存滑动此,数据项对计算结果的影响随时间为了避免代价昂贵的磁盘存取,流数窗口中多个段的概要信息。此时,滑的推移逐渐减小。这种方法的实现很据处理系统必须在内存维持一个概要动窗口的增量式更新粒度由一个数据简单,但是与滑动窗口技术相比,其计数据结构,以保留扫描过的信息。项增大为一个数据段。这种方法通常算结果的意义不是非

6、常明确。在使用2.功窗Il技术只支持大小为段大小的整数倍的滑动滑动窗口的算法中,用户明确地知道使用滑动窗口的需求来自算法和窗口上的计算。通过保存每个段的数他是在对哪些数据进行处理。而在使应用。在算法方面,滑动窗口减少了据的离散傅立叶变换系数,能支持任用衰减因子的方法中,每项数据都只算法需要处理的数据量,并对挖掘变意窗口大小内的数据流关联系数计算。是部分地参与了计算,用户无法确定化的数据流提供支持。在应用方面,3.多窗Il技术计算结果到底由哪些数据得到。有些应用只对最近的数据感兴趣,要基于滑动窗口的方法一般都要求5.近似技术求算法对以当前时间为终点的某个滑用户事先指

7、定窗口大小,算法在运行由于数据流处理严格的时间与空动窗口内的数据进行处理。过程中只能给出此滑动窗口上的计算间限制,确定且精确的流数据算法比在滑动窗口上进行数据挖掘最大结果。而在很多应用中用户可能在较少见。对于大多数算法,只能以降的困难在于过期数据的移除。随着数线提出某个窗口上的挖掘请求,此窗低计算结果的精度为代价,换取算法据的流入.滑动窗口中最早到达的数口的大小没有事先确定,而且窗口的时空复杂度的降低。理论上保证近似据将滑出窗口的范围,算法需要消除终点可能也不是当前时刻。为了支持程度的算法是比较理想的近似算法。这些数据对滑动窗口上的目标计算所这样的应用需求,学者们

8、提出一种多

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。