web信息抽取系统的设计与实现论文

web信息抽取系统的设计与实现论文

ID:33493055

大小:2.82 MB

页数:94页

时间:2019-02-26

web信息抽取系统的设计与实现论文_第1页
web信息抽取系统的设计与实现论文_第2页
web信息抽取系统的设计与实现论文_第3页
web信息抽取系统的设计与实现论文_第4页
web信息抽取系统的设计与实现论文_第5页
资源描述:

《web信息抽取系统的设计与实现论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文(工程硕士)Web信息抽取系统的设计与实现THEDESIGNANDIMPLEMENTATIONOFWEBINFORMATIONEXTRACTIONSYSTEM丁乔毅哈尔滨工业大学2012年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文Web信息抽取系统的设计与实现硕士研究生:丁乔毅导师:张宇副教授副导师:孙一鸣高级工程师申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2012年6月授予学位单位:哈尔滨工业大学ClassifiedInde

2、x:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFWEBINFORMATIONEXTRACTIONSYSTEMCandidate:DingQiaoyiSupervisor:AssociateProfessorZhangYuAssociateSupervisor:SeniorEngineerSunYimingAcademicDegreeAppliedfor:MasterofEngineeri

3、ngSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2012Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要当前Web上承载的海量信息,使得它变成了人们日常生活中获取信息的一个重要源头。探索一种方便人们从万维网的海量信息中挖掘出自己所需要的内容的方法变得越来越重要。Web信息抽取就是众多方法中的一个有效解决方案。

4、本课题来自于阿里巴巴(中国)网络技术有限公司搜索平台部内容系统组的实际需求。本课题所研究的内容是,从Web信息抽取应用领域出发,通过基于抽取对象和Web页面结构的特点,分析了系统需要解决的信息抽取问题;并且针对这些问题,分别提出了有针对性的抽取解决方案。基于这些抽取方案,本课题设计和实现一个能够从万维网中抽取用户需要信息的Web信息抽取系统。在完成本课题的过程中,作者分析了Web信息抽取解决的问题,定义了典型的信息抽取目标;并以此为基础阐述了一种表示Web网页内容中结构化信息的数据模型。作者进行了系统业务场景的应用

5、描述,并以此归纳成为系统的基本需求,依据软件开发生命周期,依次从需求分析、系统设计和实现以及系统测试这几个方面,详细介绍了课题系统的设计和实现。在此过程中,本文使用用例模型分析和总结了系统的功能性需求。然后,以此模型为基础设计了整个系统的功能模块和系统体系结构。作为这一部分的核心,针对系统抽取任务工作引擎和Http服务器框架这两个组件的设计和实现,本文借助类图、时序图、流程图模型对它们进行了重点的介绍。另外,本文也对系统中使用的几种Web信息抽取算法,如基于模板信息抽取算法、列表信息抽取算法的思想和实现做了详细介绍

6、,并且进行了一定的算法分析和评价。最后,通过系统测试和算法测评证明了系统可以满足预先定义的需求。关键字:Web信息挖掘;Web信息抽取;基于模板信息抽取;列表信息抽取-I-哈尔滨工业大学工程硕士学位论文AbstractNowadays,theWebwhichisbasedontheInternet,isplayingamoreandmoreimportantroleinpeople’sdailylife.ThereislotsofinformationconveyedbytheWeb,whichmakesitasi

7、gnificantinformationsourceinpeople’slife.FindingaconvenientwayofdiggingthedesiredinformationfromthevastamountofthedataontheWebisveryimportant.Webinformationextractionisoneoftheusefulsolutions.ThisprogramcomesfromsearchplatformdepartmentatAlibaba.Thethesisismai

8、nlyabouttheanalysisofWebextactionproblem,accordingtoitsapplicationfields.Thethesisdefinedtheextactionproblems,fromtheviewoftheextractiontragets’andWebpages’features,andalsoputforwa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。