基于随机森林算法的作弊网页检测方法研究

基于随机森林算法的作弊网页检测方法研究

ID:35071163

大小:5.82 MB

页数:53页

时间:2019-03-17

基于随机森林算法的作弊网页检测方法研究_第1页
基于随机森林算法的作弊网页检测方法研究_第2页
基于随机森林算法的作弊网页检测方法研究_第3页
基于随机森林算法的作弊网页检测方法研究_第4页
基于随机森林算法的作弊网页检测方法研究_第5页
资源描述:

《基于随机森林算法的作弊网页检测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、10477分类号NMS.l学校欄密级公开学^2013211102传接巧H今记硕i学位论文基子化机森袜义法巧作弁巧页检測方法巧免学位申请人姓名:易乐一申请学位学生类别:全口制巧壬申请学位学科口类:^申请学位学科专业:索化分析与集成导师姓名、职称:耶长安教换邦华平傅壬?所属院(系、所):计鼻机与侍息技术学化:20化3月论文巧交日期:年■■、....、.W'?.^.V';片':',‘?.'-./.1:;‘

2、.一,.,1..'’'■■■''■.V气V.:分类号N945.1学巧代码10477密级公开学^2013211102?信接巧IL爹冷硕±学位论文A子化和iA抹其法巧作弁巧巧松測方法研免学位申请人巧名;^申请学位学生类别:全日制巧壬申请学位学科口类;^申请学位学科专业:索化分祈与集成壬导师姓名、职称:斯长姿乂援郭华平净所属院(系:计專批与傍惠技术学化、所)论文提交日巧;2016年3月Theresearchofwebae

3、sfilteringbasedonrandompgforestsalgorithmsADissertationSubmi行edfbr化eDegreeofMasterCandidate:MaYuanSuervisor:Prof.WuChangAnpCo-Suervpisor:GuoHuaPingSchoolofcomuterandinformationtechnolopgyXinanNormalUniversitXinanChinaygy,yg

4、,独创性声明本人声明,所呈交的论文是本人在导师指导下进巧的研究工作及取得的研究成果。尽我所知,论,除了文中特别加W标注和致谢的地方外文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得信阳一师范学院或其他教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。签名:晏知曰期:M《年女月曰学位论文使用授权书、使用学位论文的规定本人完全了解信阳师范学院有关保留,即学'校有权保留并向国家有关部I]或机构送交论文的复巧件和电子版,允

5、许论文被查阅和借阅。本人授权信阳师疆学院可W将本学位论文的全部内容编入有关数据库进行检索、缩巧或其他复制手段保存,可W采用影印’或汇编本学位论文。同时授权经信阳师范学院认可的国家有关机构或论文数据库使用或收录本学位论文。,并向社会公众提供信息服务(保密的论文在解密后应遵守此规定):导师:曰期:年研究生(签名)(签名)妹身^k广柳摘要作弊网页(Websam是指那些通过不正当手段获得高搜索引擎排名的页面p)。它利用搜索引擎排名规则设计网页,对网页后台内容进行编码和修改,从而诱导用户使网

6、站达到窃取更大化利润的目的。这种行为导致用户体验大幅下降,浪费捜索引一擎公司大量的计算和存储空间,被公认为是互联网搜索所面临的最大挑战之。有效的反作弊方法研巧是一项重要的研巧课题。本文对作弊网页检测技术进行了探讨和分析,在此基础上将数据预处理融入到随机森林算法中进行了优化研究。本文主要贡献如下:一SMOTE1.针对作弊网页数据集合中的类不平衡性问题,提出了种改进的算法,简记为BKMSMOTE算法。不同于传统的SMOTE算法在构造新样本时,_存在的数据结构变化现象和数据修正后的正负类边界模糊问题,本文引入

7、聚类算法思想,运用二分K均值聚类算法对SMOTE算法存在的问题进行改进。BKMSMOTE算法的基本思想为通过二分K均值(BisectK-)_ingMeans算法对负类样本进行聚类操作并计算簇也,通过在簇也到样本点的连线上进行插值,从而构造。新样本该算法在构造过程中法到对数据分布的描述,从而解决SMOTE算法的缺陷,实现了即保留原有数据集的结构,又较好地解决作弊网页数据集不平衡的问题,在一定程度上提升了随机森林算法在处理此类惰况的分类效果。2.针对随机森林算法在作弊网页数据集严重失衡的情况下其分类效果不

8、是很理想的问题,本文将BKMSMOTE算法平衡后的数据集放入随机森林算法中进行_处理,利用该平衡数据集进行训练和分类并记录分类结果。通过实验分析表明,检"测系统对作弊网页的检测精度达到84±0.75/〇,处理单个网页的平均速度为702m

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。