一组相关XML数据文件的数据类识别方法.pdf

一组相关XML数据文件的数据类识别方法.pdf

ID:58295418

大小:852.64 KB

页数:6页

时间:2020-04-30

一组相关XML数据文件的数据类识别方法.pdf_第1页
一组相关XML数据文件的数据类识别方法.pdf_第2页
一组相关XML数据文件的数据类识别方法.pdf_第3页
一组相关XML数据文件的数据类识别方法.pdf_第4页
一组相关XML数据文件的数据类识别方法.pdf_第5页
资源描述:

《一组相关XML数据文件的数据类识别方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第35卷第4期华侨大学学报(自然科学版)Vol.35No.42014年7月JournalofHuaqiaoUniversity(NaturalScience)Jul.2014文章编号:10005013(2014)04038705doi:10.11830/ISSN.10005013.2014.04.0387一组相关XML数据文件的数据类识别方法李赛男,余金山(华侨大学计算机科学与计算学院,福建厦门361021)摘要:为解决当前可扩展标记语言(XML)绑定框架普遍存在的由XML模式映射生成的数据类的冗余,以及数据类系统规模过大的问题,提出一种从一组相

2、关XML数据文件的数据实体类识别方法.该方法先抽取这一组XML数据文件的XML模式树图,并将其每个节点表示成向量空间中的向量;然后,利用相似度和距离识别该模式节点对应的预定义模式节点类型;最后,按模式节点类型到类的映射规则得到数据类.结果表明:该方法能识别合并对应同一个实体的数据类避免类冗余,将集合类型的XML文件映射成泛型类和集合类减小生成类系统的规模.关键词:类识别;可扩展标记语言;数据绑定;模式树图;节点类型;相似度中图分类号:TP311文献标志码:A可扩展标记语言(extensiblemarkuplanguage,XML)数据绑定是指将数据从一些

3、XML文件中取[1]出,通过程序表示这些数据的过程.即把数据绑定到计算机能够理解且可以操作的某种内存结构中,大多数是绑定到类对象实例上.XML数据绑定隐藏了XML数据的具体结构,方便程序直接使用XML[2]文档中的数据内容,使得XML数据能够直接转换为可处理的业务数据.目前,将XML数据绑定到[2?6]Java对象的框架有XStream,JAXB,XMLBeans,Castor和JiBX.这些XML绑定框架的关键是XML数据对应数据类的获得,即根据XML模式文件按一定规则生成的,或用户自己编写绑定映射规则再字节码生成.它们可以很好地对遵循同个XML模式文

4、件约束的一组XML文件进行XML数据绑定.但要解决来自相同应用系统中,遵循不同XML模式文件的XML文件的数据绑定,会有数据类冗余、生成类系统庞大等问题.基于此,本文提出一种从一组相关XML数据文件的数据类识别方法.1XML结构特点及相关定义1.1XML结构特点每个XML文档有且仅有一个根元素,它是所有其他元素的父元素,而所有元素都可拥有子元素、文本内容和属性.从元素的嵌套关系可以看出XML文档是一棵文档树.相应地有一种抽象数据结构———文档对象模型(documentobjectmodel,DOM)DOM将XML文档中各种类型的数据映射到相[7]应的类

5、型对象,构建出树形结构,分成文档节点、元素节点、文本节点、属性节点、处理指令节点、注释节点、文档类型节点、文档段节点、符号节点、CDATA段节点、实体节点和实体引用节点等12类.XML文档可以分为以数据为中心和以文档为中心两大类.以数据为中心的XML文档常被用于机器的使用,而以文档为中心的XML文档则主要是为人类而设计的.文中涉及的XML数据文档均属于以数据为中心的XML文档.它着重于文档中的数据,而非文档格式.具有结构化的数据、数据粒度大小适中、很少或没有混合内容,以及文档顺序不重要等特点.故在考虑设计实现问题解决方案时,需要考虑的DOM节点对象只有属

6、性节点、元素节点和文本节点.1.2XML模式节点定义XML文档模式描述一类XML文档中数据的结构关系和类型信息,在内存可表现为一个树图.树收稿日期:20130217通信作者:余金山(1952),男,教授,主要从事软件工程和人工智能应用等方面的研究Email:yjs@hqu.edu.cn.388华侨大学学报(自然科学版)2014年节点对应元素节点、属性节点,节点的附加信息有元素或属性的名称、重数、数据类型等.将模式树图中的模式节点进行分类,以建立XML模式到数据类之间的映射,并定义如下6个模式节点类型.1)属性型.该模式节点对应XML文档中的属性

7、节点.2)属性类元素型.该模式节点对应XML文档中的元素节点,而该元素节点没有子元素节点或只包含文本节点,没有属性.3)List类元素型.该模式节点仅包含一个子模式节点,而该子模式节点是非属性类节点且对应元素节点的重数大于1.4)包装类元素型.该模式节点包含多个属性类节点和一个非属性类节点的子模式节点.在多XML文件环境下,包装类元素型的模式节点有两种类型:一种是包含一个非属性类型的子模式节点,但具有多套不同的属性类型的子模式节点组;另外一种是只有一个属性类型的子模式节点组,但包装多套非属性类型的子模式节点.5)包装类属性集型.用于组织包装类元素型模式节

8、点下的属性类型的模式节点.6)实体类元素型.该分类设置为非属性类型的模式节点类型

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。