基于非参数密度估计的异常点诊断方法.pdf

基于非参数密度估计的异常点诊断方法.pdf

ID:56003228

大小:468.57 KB

页数:9页

时间:2020-06-19

基于非参数密度估计的异常点诊断方法.pdf_第1页
基于非参数密度估计的异常点诊断方法.pdf_第2页
基于非参数密度估计的异常点诊断方法.pdf_第3页
基于非参数密度估计的异常点诊断方法.pdf_第4页
基于非参数密度估计的异常点诊断方法.pdf_第5页
资源描述:

《基于非参数密度估计的异常点诊断方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第44卷第16期数学的实践与认识Vl01.44.No.162014年8月MATHEMATICSINPRACTICEANDTHEORYAug.,2014基于非参数密度估计的异常点诊断方法吴武清,安愫宁,蒋勇z,陈敏。(1.中国人民大学商学院,北京100872)(2.中国人民银行征信中心,北京100031)(3.中国科学院数学与系统科学研究院,北京100190)摘要:异常点诊断是统计学中的经典问题.发现并减少异常点对纳税评估数据分析的影响是一项很有意义的研究.然而,通常的异常点诊断一般采用适用于单峰分布

2、的全局识别方法.借鉴局部域相关积分(Localcorrelationintegra1)理论,提出基于非参数密度估计的识别方法.方法适用于多峰分布,能识别局域性质的异常点,对异常点占比较高的样本也有较强的识别能力.基于某市10920个企业样本,实证分析对比研究了税务局目前使用的和建议的纳税评估方法,结果表明税务局采用的方法有较大的纳税评估风险(误判风险)..关键词:异常点诊断;纳税评估;非参数密度估计;局部域相关积分1引言为推进依法治税,切实加强对税源的科学化、精细化管理,2005年3月31日国家税务

3、总局印发了(纳税评估管理办法(试行)》(以下简称管理办法).该管理办法的发布正式确立了纳税评估这一现代征管模式在税收征收管理中的地位.管理办法指出在纳税评估分析时,要综合运用各类指标,并参照评估指标预警值进行配比分析.显然配比分析的关键是确定评估指标的预警值.在税务局目前的实践中,一般是先假定评估指标的总体分布是单峰分布,然后由样本推断预警值.但是先验的假定总体分布是单峰的,甚至假设服从正态分布,有潜在的误判风险.本文研究旨在分析这种误判风险,然后给出解决方案.纳税评估将逐步取代“税收专管员”的征管

4、模式的一个重要原因是纳税评估所必需的数据条件已越来越充分.随着我国税务信息化建设的不断深入,税务部门已积累了大量涉税数据信息,形成了极其丰富和宝贵的数据资源.这为开展纳税指标评估提供了有利的数据条件,但鉴于偷(逃)税等税收流失问题的严重性,例如在税收管理机制相对成熟的美国,IRS(2006)估计的2001年美国联邦税收流失也高达3450亿美元,占联邦税收收入的16.3%,所收集到的纳税人信息含有夸大抵扣或瞒报收入的行为.从数据分析的角度讲,该类纳税人信息被“污染”了,含有异常值(Outlier),而

5、基于“污染”数据的纳税分析是不可靠的.具体到纳税指标评估中,需要根据宏观税收分析和行业税负监控结果以及相关数据估计评估指标的预警值,而“污染”数据会给出不合理的预警值,从而降低纳税评估指标方法对异常纳税人的辨识能力.例如,假如某个纳税评估指标服从某双峰分布,在图1中以实线代表;收稿日期:2013—10—21资助项目:国家自然科学基金(71003100);教育部人文社会科学研究一般项目(11YJC630270);中央高校基本科研业务费专项资金(11XNK027,10XNF020).142数学的实践与认

6、识44卷如果事先不知道该分布是双峰分布,而用正态分布拟合之,在图1中以点划线代表.如果样本取自正态分布总体,以正态分布拟合后,可以估计出检验水平为5%的上下预警线,则样本落在该预警线外的概率为0.05,这些样本因而可被视为异常点.这是目前的纳税指标评估方法的统计理论依据.但是如果总体分布服从如图1的双峰分布,那么可以看出这种盲目的拟合,会发生两类误判错误.图1给出了实际总体分布的真实预警线和正态分布假设下的预警线.由图可知,由于此时总体分布左侧有一个小峰,因此左侧的真实预警线在正态分布假设下的左侧预

7、警线的左边.这两条预警线之间的样本取值,在正态总体分布假设下会被判为异常值,但其在实际分布预警值的右边,故实际上并不异常,这就犯了统计假设检验的第一类错误:拒绝正常值的错误.类似,右侧格子部分对应的取值犯了统计假设检验的第二类错误:接受异常值为正常值的错误.异常值对数据分析造成的负效应,还包括增加样本方差,减少检验功效,以及严重导致兴趣变量的估计有偏或不一致等等.此外,异常值具有面具效应(Maskingefect)和沉没效应(Swampingefect).在纳税指标评估中,面具效应意味着纳税指标的第

8、一个异常值将掩盖第二个甚至更多的异常值,除非找到第一个异常值.而纳税指标异常值的沉没效应会使一个甚至更多正常值被误判为异常值,除非该异常值被剔除.由于纳税指标评估中,异常值通常和异常纳税人联系起来.因此,异常值的面具效应和沉没效应乃至前述异常值对数据分析都会使得纳税评估缺乏可信度、公平性和增加纳税评估成本.可见,异常值的识别在纳税指标评估中意义重大.图1所示.图1某纳税评估指标的真实分布及其分布曲线的正态分布拟合异常值侦测的研究成果已很丰硕,Papadimitriou

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。