浅论一个基于语义信息提取的互联网情报挖掘系统的设计与实现

浅论一个基于语义信息提取的互联网情报挖掘系统的设计与实现

ID:34818951

大小:2.82 MB

页数:73页

时间:2019-03-11

浅论一个基于语义信息提取的互联网情报挖掘系统的设计与实现_第1页
浅论一个基于语义信息提取的互联网情报挖掘系统的设计与实现_第2页
浅论一个基于语义信息提取的互联网情报挖掘系统的设计与实现_第3页
浅论一个基于语义信息提取的互联网情报挖掘系统的设计与实现_第4页
浅论一个基于语义信息提取的互联网情报挖掘系统的设计与实现_第5页
资源描述:

《浅论一个基于语义信息提取的互联网情报挖掘系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学计算机科学与技术学院硕士学位论文一个基于语义信息提取的互联网情报挖掘系统的设计与实现姓名:黄朝晖申请学位级别:硕士专业:计算机应用技术指导教师:姜晓红;陈华钧20100301浙江大学硕士学位论文摘要随着Internet的高速发展,Web已经成为世界上规模最大的公共数据源。人们可以从Web获取信息,可以通过Web与其他人交流,可以在Web上共享自己的信息。然而由于Web数据规模如此庞大,如何从中快速准确的检索到用户所需要的信息是一个急迫需要解决的问题。针对这一问题,在信息检索领域中的Web数据挖掘便应运而生,并且伴随着Web的发展而

2、备受关注。Web数据挖掘它建立在信息检索、数据挖掘以及知识管理等技术的基础上,通过对大量的Web文档进行分析来获得隐含的知识和模式,从而帮助人们更好的进行信息检索和决策制定。本文分析了Web数据挖掘的研究内容和研究状况,设计并实现了一个基于语义信息提取的互联网情报挖掘系统,具体的内容包括:1.实现并分析了Web页面提取、网页正文提取、自然语言处理以及关键字信息抽取等子系统模块;2.提出并实现了语义关系图的构建模型,该模型用图的形式表示非结构化的文本数据巾的语义关系;3.实现了一种频繁子图挖掘算法,该算法不同于单纯的深度遍历和广度遍历算法,

3、在效率上优越于前两者;本文将该算法应用于挖掘潜在的频繁语义子图,得到具有一定客观性的语义关系图;4.提出并实现了一种基于LinkedData的RDF链搜索算法,用LinkedData解析频繁子图,从而获得具有标注关系的语义关系罔。关键词:Web数据挖掘,网贞正文提取、自然语言处理、频繁子图挖掘、语义关系图、LinkedData浙江大学硕士学位论文AbstractWithdevelopmentofInternet,webhasbecomethebiggestopendataresourceintheworld.Peoplecanachiev

4、einformationfromweb,connectothersbywebandsharetheirresourceonwebandSOon.ButthewebresourcedatabasearesuchlargethathowtOgettheinformationsatisfiedwithuser’Sdemandquicklyandexactlyisanurgentproblem.Tosolvethisproblem,anewtechnologynamed“WebDataMining’’wasintroducedininformat

5、ionretrievaldomain,anditwaspaidmuchattentionbyinvestigatorswiththedevelopmentofweb.Webdataminingisbuiltonthebaseofinformationretrieval,dataminingandknowledgemanagement,andachieveimpliedknowledgeandpatternbyanalyzinglargenumberofwebdocuments,SOthatitcanimproveinformationre

6、trievalanddecisionmaking.Thispaperanalyzetherecentinvestigatedcontentandprogressivityinthedomainofweddatamining,thendesignandrealizeawebinformationminingonsemantic-basedinformationextraction.TheconcretecontentincludesasfoIlow:1.Implementandanalyzesomesubsystemmodules,such

7、aswebpagescrawling,maincontentsextractionfromwebpages,naturallanguageprocessingandkeywordsextraction.2.Putforwardandimplementasemanticrelationalgraphconstructionmodel,whichemploygraphtoexpresssemanticrelationshipinnon-structuredtextdata.3.Realizeafrequentsubgraphminingalg

8、orithm,whichisdifferentwithDFSandBFSalgorithms,andismoreefficientthanthem.Thispaperemploythealgo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。