垃圾网页的搜索引擎优化技术研究

垃圾网页的搜索引擎优化技术研究

ID:9560217

大小:51.00 KB

页数:3页

时间:2018-05-02

垃圾网页的搜索引擎优化技术研究_第1页
垃圾网页的搜索引擎优化技术研究_第2页
垃圾网页的搜索引擎优化技术研究_第3页
资源描述:

《垃圾网页的搜索引擎优化技术研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、垃圾网页的搜索引擎优化技术研究垃圾网页的搜索引擎优化技术研究  1、搜索引擎排名策略  在互联搜索引擎的使用过程中,用户使用搜索引擎查询资料时,85%的机会只会看搜索引擎查询结果中的前10条结果,究竟什么样的数据信息会出现在前10条结果中,则取决于搜索引擎使用的排名策略。而搜索引擎使用的排名策略,主要根据用户利用搜索引擎在互联网上寻找信息的两个重点,即期望搜索到的网站内容与搜索关键词(keyportance)。  1.1相关程度(relevance)  搜索引擎用来搜索关键词相关网站的技术,普遍运用信息检索中的TFIDF(termfrequency–inversed

2、ocumentfrequency)的概念,即网页内容与搜索关键词Frequency),;IDF(entFrequency)。一个网页的TFIDF值越高,在搜索结果中的排名相对也越高。  1.2重要性(importance)  除了以网页出现的关键词字数多寡进行排名外,搜索引擎更提出了以网页链接(推荐)作为计算网页重要性的排名技术,其中最广泛运用的演算法分别为HIT和PageRank。  HIT演算法计算每一个网页的hub(具有集线器性质的网页)和authority(权威网页)值,意即具有重要hub值的网页必指向许多重要的authority网页;而重要的authority网页则是

3、被许多hub网页所指向。而PageRank(网页级别,谷歌搜索引擎排名运算法则之一)的排名计算理论来自于:网页的重要性来自其他重要网页的推荐,而网页的重要性也会扩及到其链接的网页。根据M.Bianchini,M.Gori等人的研究,发现PageRank演算法的计算公式可能如下:    其中c表示dampingfactorc(0,1),通常设为0.85,代表会由py网页点击px网页的机率,而(1-c)/n则表示随机跳到其他网页的机率,故px的PageRank值为所有链接到px的网页py的机率PageRank加总。一般情况下,具有较高PageRank值的网页拥有较高的排名。  2、

4、搜索引擎优化技术(本文由.Lolina的研究主要可分为两大类,冲高排名技术(Boostingtechnique)和隐藏技术(Hidingtechnique)。  2.2冲高排名技术(Boostingtechnique)  本技术主要是用来提升网页的排名,分别针对前述搜索引擎排名方式所设计,依手法的不同可分为:  2.2.1滥发关键词(Termspamming)  由前述TFIDF网页排名方式可知,关键词在一个网页中出现的次数(termfrequency)将会影响其排名位置。因此searchspammer(mer,垃圾网页制造者)利用这项特性在网页上的不同位置放入关键词,例如:网

5、页主体(Body)、标题(Title)、Meta标签、HTMLhead(网页头标签)、URL、anchortext(链接锚文本)等都是可以进行搜索引擎优化的地方。另外,置入关键词的手法也有不同,最基本的就是放入大量重复的关键词,增加该网页的主题性;再者利用复制其他主题性较弱或是相关信息较少的网页内容并插入垃圾文字(spam)上,这样,一方面可以在短时间内完成一个垃圾网页(),另一方面则可以稀释垃圾网页()在网页中出现的比率,以规避搜索引擎的检验;或是放入大量不同领域且不相关的关键词,或是通过剪贴来自不同主题网页的内容片段,让使用者即使不是查询相关的主题也会看到该垃圾网站。  2

6、.2.2滥发链接(Linkspmming)  顾名思义,滥发链接(Linkspmming)是为针对前述基于链接(link-based)搜索演算法HITS或PageRank所设计的搜索引擎排名篡改技术(spammingtechnique),其手法可简单分为两类:  (1)导出链接(Outgoinglinks)。垃圾网页的制造者(Spammer)会在垃圾网页上加入大量连接指向知名网站的链接以增加垃圾网页的hub值。由于许多目录网站对于各项主题都有清楚的分类,并且在分类中列出相关的链接,因此复制目录网站的内容是垃圾网页制造者为了快速建立大量的导出链接最常用的方法。  (2)导入链接(

7、Ininglinks)。导入链接(Ininglinks),也可称为外部链接,主要是通过别的网页连接指向垃圾网页以增加authority值或PageRank值。  2.3隐藏技术(Hidingtechnique)  隐藏技术(Hidingtechnique)主要是为了隐藏冲高分数(Boosting)的技巧,主要是因为欺骗搜索引擎的伎俩很容易被人的肉眼发现,垃圾网页的制造者(Spammer)因此发展出了一些隐藏的方法。  2.3.1隐藏内容(ContentHiding)  隐藏内容(Conten

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。