基于标签路径特征的网页正文自适应抽取方法研究

基于标签路径特征的网页正文自适应抽取方法研究

ID:35066625

大小:6.17 MB

页数:61页

时间:2019-03-17

基于标签路径特征的网页正文自适应抽取方法研究_第1页
基于标签路径特征的网页正文自适应抽取方法研究_第2页
基于标签路径特征的网页正文自适应抽取方法研究_第3页
基于标签路径特征的网页正文自适应抽取方法研究_第4页
基于标签路径特征的网页正文自适应抽取方法研究_第5页
资源描述:

《基于标签路径特征的网页正文自适应抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、359TP3单位代码W.11分类号113110545学号啤密级約f巳义HefeiUniversitofTechnoloygy硕:t学位论文M乂STERDEGREETHESIS论文题肖:基于标签路径特征的网页正文自适应抽取方法硏究学化炎别:学历硕±学科专化:软件工程]:(巧姐贼)作巧师名:胡验蛛师姊名:吴共庆副教援完成时间:2016年4月‘-4./1一.-科…接备■政心单位代码:10359密级:公开:2013110545;TP311学号分类号HefeiUniversity

2、ofTechnology硕±学位论文MASTERSD巧SERTATION论文题目:基于标签路径特征的网页正文自适应抽取方法研究学位类别;学历硕±专业名称:软件工程作者姓名:盟整:吴共庆副教授导师姓名完成时间:2016年4月合肥工业大学学巧硕±学位论文基于标签路径特征的网页正文自适应抽取方法研究:酸作者姓名藍指导教师;吴共庆副教授学科专业:软件工程研究方向:云计算与云服务工程2016年04月ADissertatio凸Submittedfor化eDegreeofM

3、asterSe-aeContentactlfAdaptiveWebpgExtrionviaTagPa化FeaturesByHuJunHefeiUniversityofTechnologyHefei,Anhui,RR.ChinaApril,2016合肥工业大学本论文经答辩委员会全体委员审查,确认符合合肥工业大学硕i学位论文质量要求。答辩委员会签名(工作单位、职称、姓名),y成芽^主席於矜马1芽以寺、(心吟啼委员:教如滅始叩>私戶《啦化处#磁鶴嫌狄合支T、Vt知A刮心义[^化^爲於猶给爲吁緣畔导师

4、:合解別化沪巧刺艇滅禾槪、作、宁副欽换学位论文独创性声明本人郑重声明:所呈交的学位论文是本人在导师指导下进行独立研究工作所取得的成果,。据我所知,除了文中特别加W标注和致谢的内容外论文中不包含其他人已经发表或撰写过的研巧成果,化不巧含为获得合肥工业大学或其他教育机构的学位或证书而使用过的材料,本。对本文成果做出贡献的个人和集体人己在论文中作了明确的说明,并表示谢意。学位论文中表达的观点纯属作者本人观点,与合肥工业大学无关。学位论文作者签名:。:支巧匀复_签名日期王年f月n曰学位论文版权使用授权书本学化论义作者完令了解合肥工业大学有关保留、使

5、用学位论文的规定,巨P:除保密期内的涉密学位论文外,学校有权保存并向国家有关部口或机构送交论文的复印件和电子光盘,允许论文被查阅或借阅。本人授权合肥工业大学可,允许采用影印W将本学位论文的全部或部分内容编入有关数据库、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:指导教师签名:;讀.巧^^《豕":曰签名曰期:年午月n曰签名曰期2。年月//6午I论文作者毕业去向:工作单位:E-联系电话:mail:通讯地址:邮政编码:致谢时光甚巧,H年的研巧生生活即将结束,在此即将毕业之际,感谢所有关

6、必和帮助我的老师和同学。首先衷也感谢我的指导老师吴共庆老师给予的指导和帮助。在整个谏题的研一一、巧过程中,吴老师指导我步步的向前迈进,他丰富的学识严谨的治学态度。和孜孜不倦的探索精神给我留下了极其深刻的印象在平时生活中,吴老师也给予了我无微不至的关怀和帮助,从他身上学到的东西将使我受益终生,在此向他致W真诚的谢意!、感谢实验室所有的师兄弟师姐妹们,是大家共同营造了实验室互帮互助积、感谢大家在学习和生活上对我的极进取共同进步的和谐顯洽的良好学习氛围,帮化希望实验室里的每个人都能学业进步、工作顺利。同时,也感谢家人给我的支持和默默的付出。、屯!、

7、,最后,感谢所有巧过我关过我的人祝你们健康快乐作者:胡骇2016年3月20日I摘要随着互联网的飞速发展,Web已经成为重要的信息发布平台。然而,Web网"、页中除了正文信息,还包含着导航广告和版权信息等大量与网页主题无关的噪"音信息。网页中的噪音信息会大大降低搜索引擎、新闻聚合等系统的效果,同时也为这堅系统的存储造成了负担。因此,网页正文抽取问题具有重要的研巧意义和应用价值。本文开展的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。