基于非参数密度估计的异常点诊断方法_吴武清

基于非参数密度估计的异常点诊断方法_吴武清

ID:37378016

大小:1.11 MB

页数:9页

时间:2019-05-22

基于非参数密度估计的异常点诊断方法_吴武清_第1页
基于非参数密度估计的异常点诊断方法_吴武清_第2页
基于非参数密度估计的异常点诊断方法_吴武清_第3页
基于非参数密度估计的异常点诊断方法_吴武清_第4页
基于非参数密度估计的异常点诊断方法_吴武清_第5页
资源描述:

《基于非参数密度估计的异常点诊断方法_吴武清》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第卷第期数学的实践与认识年月基于非参数密度估计的异常点诊断方法吴武清、安愫宁、蒋勇陈敏中国人民大学商学院,北京中国人民银行征信中心北京中国科学院数学与系统科学研究院,北京摘要:异常点诊断是统计学中的经典问题发现并减少异常点对纳税评估数据分析的影响是一项很有意义的研究然而一,通常的异常点诊断般采用适用于单峰分布的全局识别方法借鉴局部域相关积分(理论,提出基于非参数密度估计的识别方法方法适用于多峰分布,对,能识别局域性质的异常点异常点占比较高的样本也有较强的识别能力基于某市个企业样本,实证分析对比研究了税务局目前使用的和建议的纳税评估方法,结果表明税务局采用的方法有较大的纳税评估风险(误判风险

2、关键词:异常点诊断;纳税评估;非参数密度估计;局部域相关积分引言为推进依法治税,切实加强对税源的科学化、精细化管理,年月日国家税务总局印发了《纳税评估管理办法(试行〉以下简称管理办法该管理办法的发布正式确立了纳税评估这一现代征管模式在税收征收管理中的地位管理办法指出在纳税评估分析时要综合运用各类指标并参照评估指标预警值进行配比分析显然配比分析的关键是确定评估指标的预警值在税务局目前的实践中一,般是先假定评估指标的总体分布是单峰分布,然后由样本推断预警值但是先验的假定总体分布是单峰的,甚至假设服从正态分布,有潜在的误判风险本文研究旨在分析这种误判风险,然后给出解决方案”纳税评估将逐步取代“税

3、收专管员的征管模式的一个重要原因是纳税评估所必需的数据条件已越来越充分随着我国税务信息化建设的不断深入,税务部门已积累了大量涉税数据信息,形成了极其丰富和宝贵的数据资源这为开展纳税指标评估提供了有利的数据条件,但鉴于偷逃)税等税收流失问题的严重性例如在税收管理机制相对成熟的美国,估计的年美国联邦税收流失也高达亿美元占联邦税收收入的所收集到的纳税人信息含有夸大抵扣或瞒报收入的行为从数据分析的角度讲“污,该类纳税人信息被”了”数据的纳税分析是不可靠的染,含有异常值(而基于污染具体到纳税指标评估中,需要根据宏观税收分析和行业税负监控结果以及相关数据估计“污染”数据会给评估指标的预警值而出不合理的

4、预警值,从而降低纳税评估指标方法对异常纳税人的辨识能力例如,假如某个纳税评估指标服从某双峰分布,在图中以实线代表;收稿日期:一:般项目资助项目国家自然科学基金(教育部人文社会科学研究(中央高校基本科■研业务费专项资金(,数学的实践与认识卷如果事先不知道该分布是双峰分布而用正态分布拟合之,在图中以点划线代表如果样本取自正态分布总体,以正态分布拟合后,可以估计出检验水平为的上下预警线,则样本落在该预警线外的概率为,这些样本因而可被视为异常点这是目前的纳税指标评估方法的统计理论依据但是如果总体分布服从如图的双峰分布,那么可以看出这种盲目的拟合会发生两类误判错误图给出了实际总体分布的真实预警线和正

5、态分布假设下的预警线由图可知一,由于此时总体分布左侧有个小峰,因此左侧的真实预警线在正态分布假设下的左侧预警线的左边这两条预警线之间的样本取值,在正态总体分布假设下会被判为异常值一,但其在实际分布预警值的右边故实际上并不异常这就犯了统计假设检验的第类错误:拒绝正常值的错误类似犯了统计假设检验的第二类错误:接,右侧格子部分对应的取值受异常值为正常值的错误异常值对数据分析造成的负效应,以及严重导致,还包括增加样本方差,减少检验功效一致等等此外,异常值具有面具效应和沉没效应兴趣变量的估计有偏或不(一在纳税指标评估中,面具效应意味着纳税指标的第个异常值将掩盖第二一一个甚个甚至更多的异常值,除非找到

6、第个异常值而纳税指标异常值的沉没效应会使至更多正常值被误判为异常值,除非该异常值被剔除由于纳税指标评估中,异常值通常和异常纳税人联系起来因此,异常值的面具效应和沉没效应乃至前述异常值对数据分析都会使得纳税评估缺乏可信度、公平性和增加纳税评估成本可见识别在纳税指标评估,异常值的中意义重大图所示:;麵海的灘翼买赚通‘一一丨图某纳税评估指标的真实分布及其分布曲线的正态分布拟合异常值侦测的研究成果已很丰硕,等⑴将已有方法分为基于分布的方法、基于深度的方法(、聚类方法(、基于距离的方法(和基于密度的方法(并作了优缺点的对比等⑴指出,实际中的数据集往往缺乏有关分布的先验信息因此若要使用基于分布的方法为

7、确定潜在分布需要支付昂贵的检验成本为弥补该缺陷本文基于非参数密度估计提出了几种新的异常值探测方法已有的相关研究有等基于核密度估计检测了无线网络数据传输中的异常点非参数密度估计可以提供连续的密度函数,特16期吴武清,等基于非参数密度估计的异常点诊断方法别是其不需要对潜在总体分布进行任何假设因此具有更大的建模自由度理论一为个分布函数假定其有概率密度假设随机变量有个实现值讲,大一部分队是来自的个简单随机抽样样本…幺并对,将从小

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。