面向半结构化数据的数据质量控制系统的研究与实现

面向半结构化数据的数据质量控制系统的研究与实现

ID:37416360

大小:2.92 MB

页数:72页

时间:2019-05-23

面向半结构化数据的数据质量控制系统的研究与实现_第1页
面向半结构化数据的数据质量控制系统的研究与实现_第2页
面向半结构化数据的数据质量控制系统的研究与实现_第3页
面向半结构化数据的数据质量控制系统的研究与实现_第4页
面向半结构化数据的数据质量控制系统的研究与实现_第5页
资源描述:

《面向半结构化数据的数据质量控制系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东北大学硕士学位论文摘要面向半结构化数据的数据质量控制系统的研究与实现摘要随着信息处理技术的不断发展,各行各业都已经建立起了很多的计算机信息系统,积累了大量的历史数据,这些历史数据非常重要的。为了使数据能够有效地支持企业的日常运作和决策,就需要这些数据可靠无误,能够准确地反映现实世界的状况。纠正数’据错误是避免错误决策、降低决策风险的重要环节,所以数据质量控制对于数据管理来说是必不可少的。以往的数据质量控制方面的研究绝大多数都是关注在数据库中的这种结构化的数据,然而由于客观因素,半结构化的文本数据却是企业保存历史数据的重要格式。针对上面的问题,本文对半结构化数据的数据质量控制进行了深

2、入研究,并且设计实现了面向半结构化数据的数据质量控制系统。首先,对现有的数据质量控制相关研究进行了详细的分析,然后分析描述了半结构化数据的特点,根据其特点建立了面向半结构化数据的数据质量控制模型。该模型实现了半结构化数据的质量检测、问题数据处理以及数据质量评估功能,提出了该模型对半结构化类型数据的抽象方法,很好的解决了半结构化数据的异构问题。然后,详细介绍了该模型对不完整数据、不一致数据和错误数据三种类型问题数据的处理方法。针对不完整数据问题,本文在传统的不完整数据检测算法的基础上,按照字段在记录中的重要性的不同,提出了决定性字段,并且按照字段的重要程度来对需要检测的字段进行排序,减

3、少了不必要数据的检测次数,从而提高了算法的检测效率:对于数据字段的错误数据,本文采用了基于业务规则的检测方法,为了解决规则库以及算广法库的规模大带来的检索效率的问题,提出了规则库两级的分区检索的策略;对于数据:l字段之间的不一致数据问题,本文采用了基于正则表达式的不一致数据的检测方法,很}-好的解决了不一致数据问题。本文最后,设计并且实现了面向半结构化数据的数据质量控制系统,并将其应用到了海洋数据环境中,通过应用验证了系统的可用性和有效性。关键词:半结构化数据;数据质量:控制模型;数据质量控制方法;控制系统--II。———●l:●●IStudyandImplementationofa

4、DataQualityControlSystemforSemistructuredDataAbstractWiththedevelopmentofinformationprocessingtechnology,allfieldshaveestablishedalotofcomputerinformationsystemsandaccumulatedalargeamountofhistoricaldataw11ichlSve巧importanttOthem.InordertOmakedataeffectivelysupportingenterprisesinthedailyrunnin

5、ganddecision—making,weneedtoensurethatthedataisaccurateandcailaccuratelvreflecttherealworldsituation.Correctingthedataerrorisanimportantpartofavoidingwrongdecisionandreducingthedecisionrisk.Soitisessentialtocontrolthedataqualityfordatamanagement.Inthepast,mostresearchesofdataqualitycontrolareco

6、ncernatdatainthedatabase.whichiscalledstructureddata.Butduetoobjectivefactors,semistructuredtextdataisstillthemainformatofpreservationhistoricaldataintheenterprises.Tosolvetheissuesmentionedabove,thesemistructureddataqualitycontrolisdeeplystudiedinthisthesis,andthedataqualitycontrolsystemforthe

7、semistructureddataisdesignedandimplemented.First,theexistingresearchesonthedataqualitycontrolandthecharacteristicsofthesemistructureddataareanalyzed.AccordingtOthesecharacteristics,asemistructureddataqualitycontrolmodelisproposed.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。