构建基于商务智能的税收数据分析系统

构建基于商务智能的税收数据分析系统

ID:25956524

大小:132.50 KB

页数:36页

时间:2018-11-23

构建基于商务智能的税收数据分析系统_第1页
构建基于商务智能的税收数据分析系统_第2页
构建基于商务智能的税收数据分析系统_第3页
构建基于商务智能的税收数据分析系统_第4页
构建基于商务智能的税收数据分析系统_第5页
资源描述:

《构建基于商务智能的税收数据分析系统》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、构建基于商务智能的税收数据分析系统构建基于商务智能的税收数据分析系统税收数据分析系统需求分析税收数据分析系统的目标构建基于商务智能的税收数据分析系统的目的就是把安徽国税所辖的信息系统的内部数据和外部数据进行有效的集成,为安徽国税系统的各层决策、分析人员使用。安徽国税信息系统内部数据是指通过税务业务系统收集到的数据,这些数据分布在不同的硬件、数据库、X络环境中,为不同的业务部门提供服务。所有这些数据从结构上看,是相对独立的,不利于安徽国税决策者进行全面分析和查询。如果我们针对决策者的需求,对这些数据进行结构上的重组,按更方便决策分析的角度去设计,并且

2、充分考虑今后的扩展性与外部数据的接口,将使安徽国税信息系统的各类数据真正发挥更大的价值。税收数据分析系统的建设需要实现以下三个要求:1、建立统一的数据应用平台建立统一的数据应用平台一一数据仓库。将各类信息系统所有重要可用数据统一的数据抽取、转换和加载规则进行充分整合,保证了数据的一致性、可靠性、真实性,为业务查询、决策支持提供基础。2、实现快捷OLAP查询传统的应用系统无法应付多用户的并发查询操作,业务系统的数据库本身并不能为查询性能优化而配置,必须实现业务查询的拆分。将实时性要求高,返回数据量小,对明细数据的查询仍访问业务系统数据库。对实时性要求

3、不高,为实现不同数据的集成,实现多样性的业务需求的可扩展性,必须要定义一整套税收数据标准,为系统应用打下坚实的基础。包括定义数据格式标准、数据命名标准、数据类型标准、数据长度标准定义和数据依赖关系标准等等。3、建立统一的数据抽取存储规范如何将各业务系统的数据有条不紊地进行合理的采集、传输和清洗加工并最后入库,是整个系统的重点和难点。需要综合考虑以下几个方面:一是数据抽取,如何高效、准确、安全地抽取各应用模块下的应用数据;二是数据转换和入库,如何高效、准确地将应用数据转换成便于分析、完整清洁的数据仓库入库数据;三是任务集成,如何保证数据采集、传输、加

4、工、入库可以流畅完成,中间可以无缝集成,当某一数据装载环节失败时可以迅速定位失败原因并方便地重新准确装载数据。4、设置合理的主题划分主题是一个抽象的概念,是由业务信息系统中的事实数据在一定层次上归纳和综合,并用来分析和利用的对象,主题只是一个逻辑的概念,是对应业务应用中某一分析领域所涉及的分析对象。主题的确定应该保证其具有独立的内涵或明确的界限,并能为数据分析提供所要求的一切内容。5、不同类型的前端应用模式支持前端应用模式担负着数据利用价值展示的重要工作。对于数据仓库或数据集市中的数据一般可以采用静态报表、动态报表、实时查询、OLAP分析以及决策支

5、持等方式,通过多维分析、趋势分析、异类分析、关联分析等分析方法进行应用展示。由于税务系统的业务处理系统比较复杂,且数据量比较庞大,导致一些业务表的增量数据无法直接获得,可以采取的解决办法分别是:在省级税务机关可以采取设置前置机用来与业务处理系统进行数据同步,包括在省局的省级集中的应用系统和分散在各地市的仍未实行省级集中的应用系统。通过触发器的方式获取增量数据,形成一个整体的税务数据ETL过程。在地市级税务机关,可以定期采取预先定制的相关主题的分析计划进行数据抽取,获取自身关注的分析主题的增量数据,而不必全范围抽取所有应用系统的增量数据。4.3.2数

6、据处理由于业务的变化、误操作、输入错误等原因,将会造成业务系统数据的不规范,不一致,甚至错误。为了保证数据仓库中用于分析的数据的正确性,必须在数据进入数据仓库之前对其进行清洗和规范。首先要进行数据有效性检查,提高数据质量,包括子数据集的选择和缺失值的处理。缺失值的处理需要观察缺失值情况,考虑舍去后对预测的结果是否有较大的影响。对于含有大量缺失值,并且不是重要的字段可以忽略,使该字段不用于建模;对于含有较多缺失值同时是重要的字段,引用均值、默认值代替缺失值或根据现有正确数据的分布比例导出缺失值。缺失值的处理,可以用回归、基于推导的贝叶斯形式化方法的工

7、具或判定树归纳确定,有意识地填充缺失值,从而提高模型的适用性。其次要进行数据变量的格式规范,将各种例如日期型变量、字符型变量等进行规范处理。最后进行相关数据变量的选择,剔除不必要的字段。4.3.3数据存储数据加载就是将经过清洗、规范的数据加载到目标数据仓库中来。数据加载分两种:一是增量加载(将增量数据加载到数据仓库的表中)二是更新加载(将物理表完全更新进行加载)。本系统由于数据量较大,主要采用增量加载。4.4逻辑模型设计4.4.1主题域分析税务系统的业务处理系统十分复杂,且数据量相当庞大,仅安徽国税综合征管信息系统就包含2000多个数据表,每年产生

8、50G的数据量。因此在进行逻辑模型设计时必须首先根据业务需求确定相应的分析主题域,确定要装载到数据仓库的主题。本分析系统可

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。