链接作弊垃圾网页的检测算法探究

链接作弊垃圾网页的检测算法探究

ID:24576777

大小:50.50 KB

页数:4页

时间:2018-11-15

链接作弊垃圾网页的检测算法探究_第1页
链接作弊垃圾网页的检测算法探究_第2页
链接作弊垃圾网页的检测算法探究_第3页
链接作弊垃圾网页的检测算法探究_第4页
资源描述:

《链接作弊垃圾网页的检测算法探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、链接作弊垃圾网页的检测算法探究-->第1章绪论1.1研究背景和意义互联网最基础的功能就是提供信息,而大多数网民现在主要依靠搜索引擎来获取自己想要的信息和查找网络资源。搜索引擎使用的排名算法决定了搜索结果的第一页展示的是最重要的几十条信息。搜索者一般只会对前几页的查找结果感兴趣,对于商业网站来说,在搜索引擎中的一个靠前的位置是非常有利的。一方面,排名靠前的网页能吸引来更多的网站点击率,这对于商业类网站来说则也许是一次交易机会;另一方面,随着网站投放广告的普及,很多的网站和个人博客加入了广告联盟,靠前的网页排名会引来更多的广告商来投放广告。

2、在这种情况下,搜索引擎优化(SearchEngineOptimizationSEO)就在网络上产生了。SEO的主要工作是通过了解各种搜索引擎怎样抓取网页、如何确定其对搜索特定关键词的结果排名以及如何进行索引等技术,来对网页进行优化使其提高搜索引擎排名,从而提高网站访问量的技术SEO的最终目的是网页的高排名,然而想在短时间内有高质量的网页进而大幅提高网站排名是一件很困难的事。一个新的网站需要经历一个长期的发展和维护才会变得被人们所熟知,高质量的网页是需要花费大量的资金、时间和精力,而这显然是满足不了一些急于获取利润的商业网站的需求的。于是

3、,一些网站欺骗搜索引擎的排名算法,使自己的网页得到靠前的搜索结果排名。这种行为一般称为网页作弊()或者黑帽SEO(BIackHatSEO)。简单而言,所有使用了作弊手段的SEO,都可以称为黑帽SEOoGyongyi和DennisFetterly等对于垃圾网页下的定义是:在搜索引擎中,网站不去考虑其真正价值,而故意采用欺骗手段获取不公正的搜索结果排名,误导用户进入其网页的行为。Ntoulas等在一个大型的搜索引擎中对10个顶级域名随机的抽取网页并手动对它们标记类型。研究发现,在这些网页中,70%的“.b1Z"网站和35%的“.us”网站,

4、以及20%的“.',网站都是垃圾网页。而对于国内来说,对垃圾网页的研究还处于起步阶段,但中文网站所遭受到的垃圾网页的影响对比国外有过之而无不及。NIC(中国互联网信息中心)是.域名的注册服务商,而.域名曾经是垃圾网页的重灾区。从趋势科技的数据显示,黑帽SEO技术在2010年仍旧是最常用的攻击手法,大量在网页中添加社会热词,其中隐藏的木马病毒使得很多用户中招。从2010年春节晚会报道开始,大到“房价过高、玉树地震”,小到“明星八卦、球星打架、淘宝购物”,几乎所有能引起网民关注的事件同时也都被黑客利用起来。在被恶意网站叩音链,,上后,一些譬

5、如一最好香港马会资料”、“怎样才能买******特码”等网络“牛皮癣,,就会傍上了具有较高公信力的政府网站,其域名依旧会显示为“gov."。这些文本在直接浏览时是看不见的,但通过百度快照等可以看出,实际上链接的是一些色情、赌博、欺诈类非法商品、政治性内容的网页。而普通网民从Rank算法具体...........40-41&n-->bsp;4.2.4链接工厂检测...........41-434.3本章小结...........43-44第5章实验结果...........44-535.1实验数据集...........445.2评测指标

6、...........44-465.3第一阶段分类结果...........46-505.4第二阶段分类结果...........50-525.5本章小结...........52-53结论通过对垃圾网页作弊技术的深入研究,我们发现大多数作弊都是针对链接的。因此本文的研究目标主要是针对垃圾网页的链接作弊,在此基础上研究分析、设计和实现一个链接型垃圾网页检测系统。针对这一研究目标,首先设计了垃圾网页检测系统框架,然后在这一框架下研究如何对网页的特征属性进行分析和分类器设计。再利用-UK2007分别训练分类器,最后实现一种有效的链接型垃圾网

7、页检测分类。在对链接型垃圾网页的几个关键技术的研究上,本文主要有以下两点贡献:研究优化了一个基于随机森林算法的链接型垃圾网页作弊分类器。紧紧围绕着随机森林分类器融合的几个设计难点(对网页进行基于内容和链接等特征属性的综合提取、不平衡数据集的解决以及树分类器的效率)对分类器进行构造,采用该分类器对测试集进行第一阶段分类。并且通过实验证明,与其他分类方法相比,我们的随机森林分类器可以达到更优良的性能。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。