垃圾网页的搜索引擎优化技术研究

垃圾网页的搜索引擎优化技术研究

ID:9786777

大小:39.50 KB

页数:8页

时间:2018-05-09

垃圾网页的搜索引擎优化技术研究_第1页
垃圾网页的搜索引擎优化技术研究_第2页
垃圾网页的搜索引擎优化技术研究_第3页
垃圾网页的搜索引擎优化技术研究_第4页
垃圾网页的搜索引擎优化技术研究_第5页
资源描述:

《垃圾网页的搜索引擎优化技术研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、垃圾网页的搜索引擎优化技术研究摘要:搜索引擎排名是垃圾网页用来自我推广的主要方式之一。本文首先介绍搜索引擎对搜索结果排名的基本策略,并针对性地提出垃圾网站常用的搜索引擎优化方法,为进一步研究侦测垃圾网站的相关技术和方法提供帮助。关键词:搜索引擎排名策略搜索引擎优化中图分类号:tp393文献标识码:a文章编号:1007-9416(2011)11-0124-021、搜索引擎排名策略在互联搜索引擎的使用过程中,用户使用搜索引擎查询资料时,85%的机会只会看搜索引擎查询结果中的前10条结果,究竟什么样的数据信息会出现在前10条结果中,则取决于搜索引擎使用的排名策略。而搜索引擎使用的排名策

2、略,主要根据用户利用搜索引擎在互联网上寻找信息的两个重点,即期望搜索到的网站内容与搜索关键词(keyword)的相关程度(relevance)和重要性(importance)。1.1相关程度(relevance)搜索引擎用来搜索关键词相关网站的技术,普遍运用信息检索中的tfidf(termfrequency–inversedocumentfrequency)的概念,即网页内容与搜索关键词w的相关程度。tfidf是一种用于信息检索与信息探勘的常用加权技术。tfidf的主要思想是:如果某个词在一篇文章中出现的频率tf值较高,并且该词或短语在其他文章中较少出现,则认为该词或者短语具有很

3、好的类别区分能力,适合用来对信息加以分类。tfidf实际上是:tf表示w在该网页全部字数中出现的次数比,即词频(termfrequency),;idf(w)表示w在全部网页集合,含w的网页数取倒数,即反文档频率(inversedocumentfrequency)。一个网页的tfidf值越高,在搜索结果中的排名相对也越高。1.2重要性(importance)除了以网页出现的关键词字数多寡进行排名外,搜索引擎更提出了以网页链接(推荐)作为计算网页重要性的排名技术,其中最广泛运用的演算法分别为hit和pagerank。hit演算法计算每一个网页的hub(具有集线器性质的网页)和auth

4、ority(权威网页)值,意即具有重要hub值的网页必指向许多重要的authority网页;而重要的authority网页则是被许多hub网页所指向。而pagerank(网页级别,谷歌搜索引擎排名运算法则之一)的排名计算理论来自于:网页的重要性来自其他重要网页的推荐,而网页的重要性也会扩及到其链接的网页。根据m.bianchini,m.gori等人的研究,发现pagerank演算法的计算公式可能如下:其中c表示dampingfactorc(0,1),通常设为0.85,代表会由py网页点击px网页的机率,而(1-c)/n则表示随机跳到其他网页的机率,故px的pagerank值为所有

5、链接到px的网页py的机率pagerank加总。一般情况下,具有较高pagerank值的网页拥有较高的排名。2、搜索引擎优化技术(seo,searchengineoptimization)搜索引擎优化技术(seo,searchengineoptimization)其实就是针对各搜索引擎的排名算法进行设计,其主要功能是篡改一个网页在搜索引擎中的排名。对互联网中围绕虚拟市场开展营销服务的电子商务企业来说,搜索引擎营销成为网络营销应用的重要领域,企业通常利用搜索引擎提高网站的访问率,通过搜索引擎把企业的品牌信息与产品信息传递给网络消费者,从而提升品牌知名度和产品销售业绩水平。2.1搜索

6、引擎营销的基本原理电子商务企业开展搜索引擎营销,首先需要建设企业产品信息或品牌信息等相关网页,形成信息源,再把这些信息通过各种手段发布到互联网上。可以利用的手段包括:创建企业营销站点,利用行业信息平台或其他第三方信息发布平台,撰写博客文章,在知名网站发布网络广告以及在论坛发贴等方式。然后让搜索引擎通过搜索策略收录信息或通过付费的方式让搜索引擎收录信息,将企业营销数据信息加入搜索引擎的索引数据库,当用户在搜索引擎中输入关键词检查时,将企业营销信息作为搜索结果反馈给网络消费者。但是,一些垃圾网站为提高网站的知名度,利用搜索引擎的排名策略,篡改其网站在搜索引擎中的排名。依照z.gyon

7、gui和h.garcia-molina的研究主要可分为两大类,冲高排名技术(boostingtechnique)和隐藏技术(hidingtechnique)。2.2冲高排名技术(boostingtechnique)本技术主要是用来提升网页的排名,分别针对前述搜索引擎排名方式所设计,依手法的不同可分为:2.2.1滥发关键词(termspamming)由前述tfidf网页排名方式可知,关键词在一个网页中出现的次数(termfrequency)将会影响其排名位置。因此searchspa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。