基于主题与语义的作弊网页检测方法研究

基于主题与语义的作弊网页检测方法研究

ID:36439400

大小:6.03 MB

页数:74页

时间:2019-05-10

基于主题与语义的作弊网页检测方法研究_第1页
基于主题与语义的作弊网页检测方法研究_第2页
基于主题与语义的作弊网页检测方法研究_第3页
基于主题与语义的作弊网页检测方法研究_第4页
基于主题与语义的作弊网页检测方法研究_第5页
资源描述:

《基于主题与语义的作弊网页检测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京化工大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者签名:盘!j妻、a日期:丝堡垒笠旦丝旦关于论文使用授权的说明学位论文作者完全了解北京化工大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘

2、,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。口论文暂不公开(或保密)注释:本学位论文属于暂不公开(或保密)范围,在年解密后适用本授权书。口非暂不公开(或保密)论文注释:本学位论文不属于暂不公开(或保密)范围,适用本授权书。作者签名:导师签名:日期:丝生垒笠因望旦日期:二丛生生学位论文数据集中图分类号TP309.5学科分类号520论文编号1001020150786密级公开学位授予单位代码10010学位授予单位名称北京化工大学作者姓名刘慕凡学号2012200786获学位专

3、业名称计算机科学与技术获学位专业代码0812课题来源自选项目研究方向信息安全论文题目基于主题与语义的作弊网页检测方法研究关键词网页作弊,搜索引擎,主题模型,语义分析论文答辩日期2015/05/27·论文类型应用研究学位论文评阗及答辩委员会情况姓名职称工作单位学科专长指导教师易军凯教授北京化工大学信息安全评阆人1范国闯研究员中科院软件研究所计算机软件评阔人2胡伟副教授北京化工大学计算机图形学评阅人3评阅人4评阅人5撇员会捕赵瑞莲教授北京化工大学计算机应用技术答辩委员1耿志强教授北京化工大学计算机应用答辩委员2李辉副教授北京化工大学计算机安全答辩委

4、员3胡伟副教授北京化工大学计算机图形学答辩委员4李芳高工北京化工大学文本挖掘答辩委员5压:一.四.论文类型:1.基础研究2.应用研究3.开发研究4.其它中图分类号在((中国图书资料分类法》查询。学科分类号在中华人民共和国国家标准(GB/T13745—9)《学科分类与代码》中查询。论文编号由单位代码和年份及学号的后四位组成。摘要基于主题与语义的作弊网页检测方法研究随着互联网的高速发展,网络中的信息量呈爆炸式增长,互联网已经成为人们获取信息的最主要渠道之一。作为信息检索过程中不可缺少的重要工具,搜索引擎在给人们带来便利的同时,也给用户带来了潜在的安

5、全隐患。网页作弊(WebSpam)是一种通过不正当方式来误导搜索引擎,从而向用户提供不良信息的行为,其严重影响用户的上网体验,给用户带来了安全隐患,同时也影响着搜索引擎的性能。如何对作弊网页进行识别与过滤,提供高质量的搜索结果,已成为现代搜索引擎的巨大挑战之一。本文的主要研究内容以及研究成果包括:(1)研究网页作弊的相关原理及技术。对搜索引擎相关原理进行分析,并研究了搜索结果排序原理,如TFIDF模型与PageRank等算法;结合搜索引擎结果排序原理,分析作弊网页的特点,研究作弊原理以及相关技术;根据常见的网页作弊手段,研究对应的反作弊方法。(

6、2)提出了一种基于主题与语义的作弊网页检测方法。对主题模型与语义分析原理进行分析;研究作弊网页在主题与语义方面的特点,提出基于主题与语义的检测特征;对网页内容进行主题建模与语义分析,提取相关特征;构建分类器对作弊网页进行分类识别。(3)设计并实现了一个基于主题与语义的作弊网页检测系统。构建网络爬虫程序,实现对互联网网页的抓取;对网页进行分析与处理,进行北京化工大学硕士学位论文主题建模,提取相关特征,构建检测样本;构建机器学习分类器,对网页进行分类检测,并展示结果。(4)设计实验对本文提出的基于主题与语义的作弊网页检测方法的可行性进行验证。实验结

7、果表明,本文提出的作弊网页检测方法能够有效的对作弊网页进行识别,比起传统的基于统计的检测方法,本文的方法可以获得更高的精确率、查全率与F,测度。关键词:网页作弊,搜索引擎,主题模型,语义分析HTTPCoM姗NIC加ONANAIⅣSISINNETWoRKAlongwiththerapiddevelopmentofIntemet,therearemoreandmoreinformationontheweb,whichhasbecomeaprimarywayforpeopletogetinformation.Asanimportanttoolfori

8、nformationretrieval,thesearchenginebringsconvenienceforpeople;however,itals

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。