基于spark的语义数据并行推理策略研究

基于spark的语义数据并行推理策略研究

ID:8322428

大小:9.21 MB

页数:51页

时间:2018-03-19

基于spark的语义数据并行推理策略研究_第1页
基于spark的语义数据并行推理策略研究_第2页
基于spark的语义数据并行推理策略研究_第3页
基于spark的语义数据并行推理策略研究_第4页
基于spark的语义数据并行推理策略研究_第5页
资源描述:

《基于spark的语义数据并行推理策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Spark的语义数据并行推理策略研究摘要伴随着网络技术的快速发展,语义Web数据大规模出现。海量语义数据的隐含信息通常需要推理方能得到。语义数据的推理过程极具挑战性。其中的难点在于数据量大、计算耗时长。显然,运行于单机环境下的传统推理工具难以适用于如此大规模的语义数据。并且单节点推理引擎面对日益增长的数据存在计算性能和可扩展性不足等问题。由此,如何实现海量语义数据在云环境下的高效推理已成为当前语义领域的研究热点。论文基于开源并行框架Spark采用RDF/RDFS、OWL、HDFS等语义Web相关技术研究海量语义数据的推理策

2、略,实现海量语义数据的高效推理。针对现有推理系统存在的相关问题,提出了基于RDFS推理规则的语义数据并行推理策略,详细阐述了并行推理过程中RDFS语义推理规则并行执行次序、数据压缩以及去除重复数据三个关键问题的实现策略。主要研究工作及成果如下:研究了RDFS推理规则以及传统的语义推理引擎,通过对比现有的云计算相关技术,引出了基于Spark的语义数据并行推理,设计实现了基于MD5的数据压缩算法以及基于Spark的语义数据并行化RDFS推理算法。该算法通过优化推理执行顺序及减少推理执行步骤,提高了推理执行速度;基于内存的迭代计算框

3、架避免了中间结果的重复读取,减少了冗余计算;基于MD5的数据压缩,节约了数据导入和存储时间并降低了计算节点之间的数据通信开销。论文提出的推理策略解决了现有单机推理策略难以处理的并行问题以及可扩展性问题,并且减少了大量数据导入和存储时间以及大量不必要的数据传输。实现的语义Web推理引擎可以对海量语义数据实现高效的推理响应。关键词:Spark语义数据并行推理RDFSIVSemanticDataParallelReasoningResearchwithSparkABSTRACTAlongwiththerapiddevelopment

4、ofnetworktechnology,large-scalesemanticWebdatahaveemerged.Withoutreasoning,hugeamountsofsemanticdatacannotbeavailable.While,theprocessisextremelychallenging.Thedifficultyliesinthelargeamountofdataandlongtimeconsumingincomputing.Obviously,traditionalreasoningtoolsuse

5、dinthesinglemachinedonotapplytosuchlarge-scalesemanticdata.What’smore,inthefaceofsurgingdata,thesinglenodeinferenceenginehasmanyproblemssuchasinsufficientcomputingperformanceandscalability.Thus,howtorealizethatthemassivesemanticdatainacloudenvironmentcanbeefficientl

6、yreasonedhasbecomeacurrenthottopicinthefieldofsemantics.BasedonopensourceparallelframeworkthisthesisusessemanticWebtechnologysuchasRDF/RDFS,OWLandHDFSrelatedtostudylargeamountsofsemanticdatareasoningstrategy,torealizehighreasoningofmassivesemanticdata.Basedonrelevan

7、tproblemsoftheexistingsystem,thisthesisproposesaparallelsemanticdatareasoningstrategybasedonRDFSreasoningrule,elaboratesRDFSsemanticreasoningrulesforparallelexecutionorder,datacompressionandremovingduplicatedatatoachievethreekeyissuesstrategyintheparallelreasoningpr

8、ocess.Themainresearchworkandresultsareasfollows:TostudytheRDFSreasoningrulesandthetraditionalsemanticreasoningengine,bycomparingthecurrent

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。