基于模糊概念可疑金融交易量化关联规则探究

基于模糊概念可疑金融交易量化关联规则探究

ID:46667640

大小:74.00 KB

页数:8页

时间:2019-11-26

基于模糊概念可疑金融交易量化关联规则探究_第1页
基于模糊概念可疑金融交易量化关联规则探究_第2页
基于模糊概念可疑金融交易量化关联规则探究_第3页
基于模糊概念可疑金融交易量化关联规则探究_第4页
基于模糊概念可疑金融交易量化关联规则探究_第5页
资源描述:

《基于模糊概念可疑金融交易量化关联规则探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于模糊概念可疑金融交易量化关联规则摘要:从模糊集的基本理论入手,通过定义模糊概念软化属性域的划分边界,提出了一种新的基于模糊概念的量化关联规则方法。本方法克服了因划分区间而造成数据缺失的不足。最后通过将某市2004年的实际数据运用到建立的算法中,验证算法的有效性,为有效开展可疑金融交易识别提供了有益的参考。口关键词:反洗钱;关联规则;模糊集;隶属函数口中图分类号:F830文献标识码:A文章编号:1002-2848-2007(02)-0057-040□□随着反洗钱工作的不断深入,对海量金融交易数据进行有效挖掘,从

2、中判别出可疑金融交易已经成为反洗钱工作的关键环节之一。有多种成熟算法的关联规则挖掘算法成为最具挑战性的挖掘工具,最早的关联规则挖掘问题由Agrawal等人提出[1],通过几年的发展,已有了很多成熟有效的算法[2,3],但传统的关联规则挖掘问题仅能处理布尔属性的数据,即项目存在或是不存在。而在金融交易数据中存在大量的表(关系),包含着丰富的属性类型。有的属性是数量型的(如年龄,交易金额等)或者是分类型的(如邮政编码,电话号码等),这些属性间蕴涵着丰富的关联关系。有效的发现这些关联关系,对于实际决策过程具有十分重要的

3、意义。口量化关联规则由Srikant等人于1996年提出,其算法的主要思想是采取分区技术,将需进行量化处理的属性的域划分成一个一个区间,并对相邻区间适当的合并,从而将问题转化为布尔关联规则的问题进行解决[4]o尽管这一方法为解决量化关联规则的挖掘问题提供了一条有效途径,但也存在明显的不足:首先,造成明显的边界问题,即在挖掘过程中,对靠近区间边界值的作用,要么过分强调,要么被忽略;其次,划分的区间可能不简明或无实际意义,不利于专家理解和信息抽取。□同时,通过对已知的洗钱行为的分析,可以发现,大量的犯罪分子在了解可疑

4、金融交易报告体制的条件下,往往会故意减少一点交易金额(使交易金额在监管范围以外),从而达到规避金融部门进一步检查的目的。针对以上问题,本文提出了基于模糊概念的量化属性关联规则挖掘方法。该方法以模糊集理论为基础,通过在数据属性域上定义一组模糊概念,将隐含于量化属性间的关联关系转化为模糊概念间的问题而解决。这样,就可以解决因区间划分不明确而引发的问题,并且使得到的结果简明、便于理解。口—、问题定义口(-)模糊概念表示口由于金融交易数据的多样性与复杂性,其中很多数据需要借助模糊概念进行表示。虽然模糊概念的内涵与外延都不

5、明确,但人脑却善于判别与处理不精确、非定量的模糊概念,并从中得出具有一定精度的结论。所以,对数据库的量化属性处理不采用区间划分的方法,而采用模糊概念对其进行抽象、概括,从而使得最终挖掘出的规则表示自然、简明、易于专家理解。模糊概念的数学表示就是模糊集合论,其不明确的内涵与外延隶属函数定量描述。所以,模糊概念实际上是在一定论域中的一些模糊集合。口为便于与量化属性统一处理,对属性类型,可将其值映射成整数,从而将类型属性转化为量化属性进行处理:而对于精确概念将其看作模糊概念的特殊情况进行处理,即隶属函数的值域退化为{0

6、,1}。这里的模糊概念及其对应的模糊集和相应的隶属函数可由反洗钱领域的专家定义,或是对大量数据进行模拟测试,经训练得到。□口(二)模糊关联规则定义口利用模糊概念表示的关联规则也称为模糊关联规则。首先定义模糊概念模式及其支持率,然后给出模糊关联规则的定义及其兴趣性度量方法。口为挖掘有效的模糊关联规则,用户必须预先给定最小支持率minsup和最小置信度mincono所以,模糊关联规则的挖掘问题就是对给定的数据库D和量化属性域上定义的模糊概念集N,发现支持率和置信度分别大于minsup和mincon的所有模糊关联规则。

7、□(三)早期量化关联规则算法口1.等深划分(equi-depthpartitioning)^划分为N个区间,每一个包含大致相同的样本个数。Fukuda提出的等深度划分方法[5]在一定程度上解决了过小支持率和过小置信度问题。这种方法趋向于将支持率较高的区域划分为多个小区间,离散化后原本相近的连续属性取值分散到不同的区间,降低了包含该属性峰值区域的项集支持率;当支持率降到最小支持率以下的时候导致信息丢失。当数据分布在某个点附近达到峰值时,等深度划分这种机械的方法并不能反应出数据本身的特点,因此,我认为对像金融交易数据

8、这样的高偏度数据处理效果不理想。口2.部分k度完全方法(partialk-compelement)□当数据分布在某个点附近达到峰值时,等深度划分不能反映出数据本身的特点。另一方面,聚类方法可以定量地确定对象之间的亲疏关系,对于给定的大样本,在没有已知模式参考情况下,聚类方法能够按照样本的本性将对象分类,在解决数量关联问题中,应用聚类方法将属性值分类,得到的每一类,构成一个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。