(最新)海量rdf数据的分布式存储研究

(最新)海量rdf数据的分布式存储研究

ID:37180307

大小:198.89 KB

页数:5页

时间:2019-05-21

(最新)海量rdf数据的分布式存储研究_第1页
(最新)海量rdf数据的分布式存储研究_第2页
(最新)海量rdf数据的分布式存储研究_第3页
(最新)海量rdf数据的分布式存储研究_第4页
(最新)海量rdf数据的分布式存储研究_第5页
资源描述:

《(最新)海量rdf数据的分布式存储研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、郭亨亨赵文静,(西安建筑科技大学信息与控制工程学院,西安710055)摘要:介绍海量RDF数据分布式存储的一种解决方案。RDF数据是按照主题-谓词-对象三元组进行存储的,重要的RDF数据还存储了额外的信息,例如版本信息、临时查询信息等。学习和研究当前流行的几种分布式存储框架,依托于开源框架HBase,在Linux集群上实现高效、协作地存储海量RDF数据。关键词:RDF;语义网;分布式文件系统(HDFS);统一资源标识符(URI)引言随着Web数据和各种网络资源的剧增以及将来语义网的发展,海量RDF存储成为当前比较紧迫的问都在紧锣密鼓地布置自己的云计算平台,像Googl

2、e这样巨头,组建了Gfs、Google的分布式文件存储系统,又在其上开发了Bigtable数据库,其目标是处理非常庞大的数据表。而开源项目Hadoop,它也实现了Google那0题。本文是借助研究一个开源的分布式存储和计算平样同样的功能,我们可以在上面开发各种分布式的应台Hadoop和以及其上的应用HadoopDatabase(HBase)来完成海量RDF的存储实现。1RDF数据和分布式存储介绍1.1语义网和RDF语义网的基本思想是对互联网上任意的资源,进行结构化的描述并引入语义,使得计算机可以理解互联网上的信息。当然,计算机不可能真正像人一样进行思考,但是通过制定标

3、准,使用标准描述信息的含义,用,Hadoop中的分布式文件系统HDFS由一个管理结点(NameNode)和N个数据结点(DataNode)组成,每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录、创建,复制、删除文件、查看文件内容等。同样,HBase是建立在HDFS上的数据库引擎,本文正是通过研究HBase,并在其上研究和开发一种海量RDF存储的解决方案。海量RDF数据和分布式存储的结合点实现2计算机就可以根据标准进行自动分析和推理,将网络使用HBase来存储RDF数据,主要是利用了上的服务集成在一起,从而使得自动化智能服务成为

4、可能。RDF则可以看成是一种Web上的知识表示语言,Hadoop的分布式平台的良好的可扩展性,只要加入足够的计算机数目,就可以得到容量和速度的极大提高,适于建立一个云计算和存储平台,如果存储了海量的是谓词逻辑的一个特殊形式,它具有形式化的语义表RDF数据,我们就可以在其上研究一些智能的推理和述,计算机可以据此理解它所表达的语义信息。RDF是一个完备的形式化系统。随着语义网的发展,海量RDF数据的存储必将是要解决的基础课题。1.2云计算和HBase计算,从而为构建语义网奠定基础。使用HBase创建和存储一个RDF,例如,我们要存储一个作者和文章的RDF文件的两个文件如下

5、:①RDF/XML格式的文章描述Bigtable:ADistributedStorageSy

6、stemforStructuredData②作者的RDF/XML描述$catRDF/Jeffrey.xml●创建HBase表与HBase交互的方式有好多,例如Shell,还有通过编写Java程序调用相应的接口实现,为说明方便,本次使用的与HBase交互的一种方法是通过API。使用清单1中显示的HTTP请求创建表。清单1:创建Articles和Authors表。$cattables/Articles.xml

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。